人类与AI面对复杂代码时竟有相同困惑
德国萨尔兰大学与马克斯·普朗克软件系统研究所的研究团队首次发现,人类与大型语言模型(LLM)在阅读复杂或具有误导性的程序代码时,表现出高度相似的“困惑”反应。该研究通过对比人类脑电活动与模型不确定性,揭示了人机在代码理解上的深层一致性。 研究由萨尔兰大学软件工程教授Sven Apel与马克斯·普朗克研究所研究员Mariya Toneva领导。他们聚焦于一类被称为“困惑原子”的代码特征——即短小、语法正确但对人类具有误导性的编程模式,常使经验丰富的开发者也容易出错。 为验证人类与AI是否在相同“卡点”上出错,研究团队采用跨学科方法:一方面,使用先前实验中收集的脑电图(EEG)和眼动追踪数据,记录参与者阅读混淆代码与清晰代码时的神经反应;另一方面,通过“困惑度”(perplexity)这一语言模型评估指标,量化LLM在预测代码时的不确定性。结果发现,当人类大脑活动(尤其是与意外性相关的“晚期前额正电位”)增强时,LLM的困惑度也同步上升,两者在时间与位置上存在显著相关性。 博士生Youssef Abdelsalam表示:“我们惊讶地发现,人脑活动峰值与模型不确定性高度重合。” 基于这一发现,研究团队开发出一种数据驱动的自动检测方法,可精准识别代码中易引发困惑的区域。在测试中,该算法成功识别出超过60%已知的混淆模式,并发现了150多个此前未被记录但同样引发人类脑电反应的新型混淆模式。 研究人员认为,这一成果为提升人机协作的软件开发工具提供了新路径。Sven Apel指出:“理解人与AI在何时、为何同时出错,是构建更智能、更易理解的编程辅助系统的关键一步。”Mariya Toneva补充道,该研究打通了神经科学、软件工程与人工智能之间的壁垒。 该成果已被国际软件工程大会(ICSE)接收,并发表于arXiv预印本平台。
