11 天前
面向教育中人机协同混合作文的自动边界检测
Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Gašević, Guanliang Chen

摘要
近年来,大型语言模型(LLMs),如ChatGPT,能够在接收到特定指令后生成类人且流畅的回应。尽管技术进步带来了显著便利,教育工作者也普遍担忧学生可能利用这些模型完成写作作业,并将其伪造成原创作品。为此,学术界已开展大量关于AI生成内容检测的研究。然而,大多数先前研究将AI内容检测建模为一个分类问题,假设文本要么完全由人类撰写,要么完全由AI生成。在本研究中,我们探索了一个较少被关注但更具现实意义的场景:待检测文本由人类与生成式大型语言模型协同撰写而成(即混合文本)。 我们首先将检测任务形式化为从给定的混合文本中识别出人类写作内容与AI生成内容之间的转换点(边界检测)。随后,提出了一种两阶段方法:(1)在编码器训练过程中,将AI生成内容与人类撰写内容进行分离;(2)计算每两个相邻原型之间的距离,并假设边界位于距离最远的一对相邻原型之间。 通过大量实验,我们得出以下主要发现:(1)所提出的方法在不同实验设置下均持续优于基线方法;(2)编码器训练过程显著提升了该方法的性能;(3)在检测单边界混合文章时,采用相对较大的原型尺寸可进一步提升性能,使域内评估(In-Domain evaluation)准确率提升22%,域外评估(Out-of-Domain evaluation)准确率提升18%。