2 个月前

在人机协作混合文本中检测AI生成的句子: 挑战、策略与洞见

Zeng, Zijie ; Liu, Shiqi ; Sha, Lele ; Li, Zhuang ; Yang, Kaixun ; Liu, Sannyuya ; Gašević, Dragan ; Chen, Guanliang
在人机协作混合文本中检测AI生成的句子:
挑战、策略与洞见
摘要

本研究探讨了在人机协作混合文本中检测句子级别的AI生成文本的挑战。现有的关于混合文本中AI生成文本检测的研究通常依赖于合成数据集,这些数据集通常包含具有有限边界的混合文本。我们认为,为了更好地指导实际应用,对混合文本中的AI生成内容进行检测的研究应该涵盖在真实场景下生成的不同类型的混合文本。因此,本研究采用了CoAuthor数据集,该数据集包括通过多轮交互由人类作者和智能写作系统合作生成的多样化、真实的混合文本。我们采用了一种基于分段的两步管道方法:(i)在给定的混合文本中检测出每个段落包含一致作者身份的句子;(ii)对每个识别出的段落进行作者身份分类。我们的实证结果突出了以下几点:(1)在混合文本中检测AI生成的句子总体上是一项具有挑战性的任务,因为(1.1)人类作者根据个人偏好选择甚至编辑AI生成的句子增加了识别段落作者身份的难度;(1.2)混合文本中相邻句子之间的频繁作者身份转换使得分段检测器难以识别出具有相同作者身份的段落;(1.3)混合文本中短小的文字片段提供的风格线索有限,导致难以可靠地确定作者身份;(2)在开始检测过程之前,评估混合文本中段落的平均长度是有益的。这一评估有助于决定是否(2.1)对于较长段落的混合文本采用基于文本分段的策略,还是(2.2)对于较短段落的混合文本采取直接逐句分类的策略。

在人机协作混合文本中检测AI生成的句子: 挑战、策略与洞见 | 最新论文 | HyperAI超神经