Command Palette
Search for a command to run...
NOTAI.AI:基于曲率与特征归因的可解释机器生成文本检测
NOTAI.AI:基于曲率与特征归因的可解释机器生成文本检测
Oleksandr Marchenko Breneur Adelaide Danilov Aria Nourbakhsh Salima Lamsiyah
摘要
我们提出 NOTAI.AI,这是一个可解释的机器生成文本检测框架。该框架在 Fast-DetectGPT 的基础上进行扩展,通过在监督学习设定下融合基于曲率的信号、神经特征与文体特征,构建出增强型检测能力。系统整合了 17 项可解释特征,包括条件概率曲率(Conditional Probability Curvature)、ModernBERT 检测器得分、可读性指标以及文体学线索,并将其输入至基于梯度提升树(XGBoost)的元分类器中,以判定文本是由人类还是人工智能生成。此外,NOTAI.AI 采用 SHAP(Shapley Additive Explanations)方法,提供局部与全局层面的特征归因分析。这些归因结果进一步通过基于大语言模型(LLM)的解释层,转化为结构化的自然语言推理依据,从而实现面向用户的高可解释性。该系统已部署为交互式 Web 应用,支持实时分析、可视化特征检查以及结构化证据展示。用户可通过 Web 界面输入待测文本,并直观查看神经信号与统计信号如何影响最终判定结果。为支持研究可复现性,相关源代码与演示视频已公开提供。
一句话总结
卢森堡大学的研究人员提出了 NOTAI.AI,这是一个可解释的框架,通过将基于曲率的信号与神经和文体特征融合到 XGBoost 分类器中,增强了 Fast-DetectGPT 的性能。该系统独特地通过大语言模型(LLM)层将 SHAP 归因转化为自然语言推理,并通过交互式 Web 应用程序提供实时、可解释的机器生成文本检测。
主要贡献
- NOTAI.AI 通过扩展 Fast-DetectGPT,将基于曲率的信号与神经和文体特征集成到监督框架中,解决了现有检测器不透明的问题。
- 该系统在 17 个可解释特征上采用 XGBoost 元分类器,并利用 SHAP 生成局部和全局归因,进而将其转化为结构化的自然语言推理。
- 在 RAID 基准测试的平衡子集上的评估表明,该集成模型的表现优于各个组件模型,并已部署为用于实时分析的交互式 Web 应用程序。
引言
大型语言模型的迅速普及改变了教育和新闻等行业,但也给文本真实性和信息完整性带来了紧迫挑战。虽然先前的检测方法依赖于概率曲率或监督神经信号,但它们通常在领域偏移下出现性能下降,且提供的评分不透明,缺乏面向最终用户的可操作依据。为了解决这些差距,作者提出了 NOTAI.AI,这是一个可解释的检测系统,在监督框架内融合了基于曲率的信号与神经和文体特征。他们利用 XGBoost 元分类器和 SHAP 值生成局部和全局特征归因,随后将其转换为自然语言推理,并通过交互式 Web 界面展示,以确保透明度和实际效用。
数据集
-
数据集构成与来源:作者使用了 RAID 数据集(Dugan 等人,2024),该数据集最初包含一个高度不平衡的非对抗性子集,其中约 2.86% 为人类撰写文本,97.14% 为 AI 生成文本。
-
平衡策略:为防止监督检测器过拟合多数类,团队构建了一个 1:1 人机比例的平衡评估集。他们保留了所有人类撰写实例,并以分层方式对 AI 生成部分进行下采样,以确保不同生成模型之间的代表性均衡。
-
处理与可复现性:采样过程使用固定种子(random_state=42)进行无放回抽样,以保证可复现性。最终的平衡数据集是通过将完整的人类子集与按生成器采样的 AI 子集连接并重置索引创建的。
-
特征构建与使用:为了训练和评估,作者预计算了输入特征,创建了特征增强版的数据集。他们采用 EleutherAI 的 gpt-neo-1.3B 作为代理语言模型来计算这些特征的 CPC 值。
方法
NOTAI.AI 框架作为一个混合可解释系统运行,旨在通过四个阶段的流程(提取、决策、解释、呈现)检测机器生成文本。该架构的核心在于将神经、统计和文体等多种信号聚合到一个统一的元分类模型中。
在特征提取阶段,系统利用 17 个互补特征捕捉输入文本的分布、结构和风格属性。作者利用微调后的 ModernBERT 模型提取神经检测概率,这些概率捕捉了上下文可能性信号和语义流畅性模式。该神经分数与条件概率曲率(CPC)相结合,CPC 是一种源自 Fast-DetectGPT 的统计信号。CPC 量化了局部扰动下令牌可能性的二阶变化,从而区分人类写作的不规则概率分布与机器生成文本更平滑的分布特征。
除了神经和统计信号外,系统还计算可解释的语言指标。这些指标包括可读性度量(如 Flesch 阅读易度)、词汇多样性度量(如类型 - 令牌比和仅出现一次词的比例),以及表面层面的文体线索。后者包括标点符号计数、停用词比例、陈词滥调比例以及最大重复 n-gram 频率,用于建模重复模式和句法节奏。
这些多样化输入的聚合情况如下图所示,其中各个特征流汇聚到一个单一的决策单元中。

所有提取的特征随后被输入到极端梯度提升(XGBoost)分类器中。该元分类器学习神经置信度分数、曲率统计量和文体指标之间的非线性交互,以确定最终分类。为了确保透明度,系统采用双层解释机制。首先,应用 Shapley 加性解释(SHAP)来量化每个特征对提升树决策的贡献,提供局部和全局可解释性。其次,一个大语言模型(具体为 Google Gemma-3-27b-it)将这些数学归因转化为结构化的自然语言推理。这个基于 LLM 的解释器接收原始文本、预测概率和特征重要性分数,以生成简洁、用户友好的证据来支持最终决策。
实验
- 性能评估表明,结合互补的特征族比单一信号基线带来了显著增益,完整的集成模型通过整合人类与机器生成文本的不同方面,实现了最高的准确率和 F1 分数。
- 在单个信号中,曲率特征在最小化假阳性方面最为有效,而文体特征提供了强大的整体性能,ModernBERT 特征则以牺牲精度为代价提供了更高的召回率。
- 特征重要性分析确定条件概率曲率、类型 - 令牌比和 ModernBERT 分数是分类器决策的主要驱动因素。
- 曲率对分类的影响是非线性的,其中正值强烈指示人类作者身份,而类型 - 令牌比遵循 S 形模式,具有区分词汇丰富样本的特定阈值。
- ModernBERT 分数充当确认性指标,仅在置信度较高时对决策有显著贡献,而不是提供连续分级的信号。