AI未通过经典注意力测试,长词单致准确率骤降
2025年1月,由Suketu Patel团队主导的研究在PNAS Nexus期刊发表。该研究将GPT-4o、Claude 3.5 Sonnet等主流大语言模型置于经典心理学斯特鲁普测试中,以探究机器注意力与人类认知机制的差异。该测试要求受试者忽略文字语义,仅识别字体颜色,是评估执行控制与抑制干扰能力的重要工具。 实验结果显示,尽管大模型能够准确识别测试范式,但在实际执行中表现出显著的认知与执行割裂。当颜色与文字不匹配且词表较短时,模型准确率尚可维持;但随着词表长度增加,性能出现断崖式下跌。例如,GPT-4o的准确率从五词的91%骤降至十词的57%,四十词测试中仅剩15%;Claude 3.5 Sonnet在二十词后同样崩溃至24%。在混合测试集中,模型对冲突项的识别率甚至趋近于零。GPT-5、Claude Opus 4.1及Gemini 2.5均呈现相同趋势。 研究人员指出,人类虽受文字阅读自动化倾向影响,但能凭借神经抑制机制在长列表中保持稳定输出。大模型在识别任务结构后,却无法激活相应的冲突解决机制,暴露出其在模拟生物注意力与长期任务聚焦方面的根本局限。该发现为评估大模型决策能力的边界提供了关键实验依据。
