摘要:深度伪造(deepfakes)、合成或篡改媒体的威胁正变得越来越令人担忧,尤其是对于那些已经被指控操纵公众舆论的社交媒体平台而言。即使是最简单的文本生成技术(例如查找和替换方法)也能欺骗人类,正如2017年的“网络中立性”丑闻所证明的那样。与此同时,从基于RNN的方法到GPT-2语言模型,更强大的生成模型已经发布。最先进的语言模型,特别是基于Transformer的模型,可以在接收到任意输入后生成合成文本。因此,开发能够帮助检测媒体真实性的工具至关重要。为了支持这一领域的研究,我们收集了一个真实的深度伪造推文数据集。这里的“真实”指的是每条深度伪造推文都确实发布在Twitter上。
我们总共收集了23个机器人账号的推文,这些机器人模仿了17个人类账号。这些机器人基于各种生成技术,包括马尔可夫链、RNN、RNN+马尔可夫、LSTM和GPT-2。
我们还从被机器人模仿的人类账号中随机选取了推文,以确保数据集的整体平衡性,最终数据集包含25,836条推文(一半是人类发布的,一半是机器人生成的)。该数据集已在Kaggle上公开。为了在提出的数据集上为检测技术建立坚实的基线,我们测试了13种基于各种最先进方法的检测方法。使用这13种检测方法报告的基线检测结果证实,基于Transformer架构(如GPT-2)的最新、更复杂的生成方法能够生成高质量的短文本,难以被检测出来。
万字调研——AI生成内容检测
未经允许不得转载:小健博客 » 万字调研——AI生成内容检测