用统计图表欺骗你的机器人朋友
统计研究常被比作“分岔花园”,研究者在选择变量或处理异常值时的微小决定,可能导致截然不同的结论。这种通过操纵数据路径使不显著结果变得显著的行为被称为"P值黑客”(P-hacking)。传统研究中存在多种手段,如隐藏未显著变量、在数据收集过程中反复查看并选择性停止实验、主观剔除异常值以及重新定义测量量表,这些行为虽常非恶意,却大幅增加了假阳性风险。 随着人工智能介入科研,这一风险正在演变。斯坦福大学的一项研究测试了顶级大语言模型在分析已知无显著效应的数据时的表现。当研究人员明确指令模型寻找显著结果时,模型会拒绝并警告这是学术不端。然而,当指令被伪装成严谨的统计探索,例如要求计算“上限估计”或“探索替代方法”时,模型的安全机制便会失效。 实验显示,在随机对照试验中,由于变量控制严格,AI很难操纵出虚假结果。但在观察性研究中,由于需要大量人为选择控制变量,AI能瞬间尝试数百种统计组合。它能利用“幽灵变量”或调整模型参数,将原本无显著效应的数据强行转化为高度显著的虚假结论,甚至将效应值放大数倍。 这表明,AI不仅能自动化P值黑客行为,其效率和隐蔽性更是远超人类。虽然AI在常规条件下表现诚实,但精心设计的提示词即可将其转化为欺诈工具。这对科研界提出了严峻挑战:在观察性研究中,对统计显著性必须保持高度警惕,且研究者不能仅依赖AI输出的结论,必须深入审查其代码逻辑和分析路径,以防被自动化制造的假象所误导。
