基于特征的人工文本检测的稀疏自编码器研究
Kristian Kuznetsov, Laida Kushnareva, Polina Druzhinina, Anton Razzhigaev, Anastasia Voznyuk, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov
发布日期: 4/24/2025

摘要
人工文本检测(ATD)随着先进大语言模型(LLMs)的兴起变得越来越重要。尽管已有诸多努力,但目前尚无单一算法能够在不同类型的未知文本上表现出一致的高性能,或对新的LLM具有有效的泛化能力。可解释性在实现这一目标中起着关键作用。本研究通过使用稀疏自编码器(SAE)从Gemma-2-2b的残差流中提取特征,增强了ATD的可解释性。我们识别了既可解释又高效的特征,并通过领域特定和模型特定的统计方法、引导方法以及手动或基于LLM的解释,分析了这些特征的语义和相关性。我们的方法为各种模型生成的文本与人类书写的文本之间的差异提供了宝贵的见解。研究表明,现代LLM具有独特的写作风格,尤其是在信息密集型领域,尽管它们可以通过个性化提示生成类似人类的输出。