HyperAI

20 天前

2025年1月，由Suketu Patel团队主导的研究在PNAS Nexus期刊发表。该研究将GPT-4o、Claude 3.5 Sonnet等主流大语言模型置于经典心理学斯特鲁普测试中，以探究机器注意力与人类认知机制的差异。该测试要求受试者忽略文字语义，仅识别字体颜色，是评估执行控制与抑制干扰能力的重要工具。实验结果显示，尽管大模型能够准确识别测试范式，但在实际执行中表现出显著的认知与执行割裂。当颜色与文字不匹配且词表较短时，模型准确率尚可维持；但随着词表长度增加，性能出现断崖式下跌。例如，GPT-4o的准确率从五词的91%骤降至十词的57%，四十词测试中仅剩15%；Claude 3.5 Sonnet在二十词后同样崩溃至24%。在混合测试集中，模型对冲突项的识别率甚至趋近于零。GPT-5、Claude Opus 4.1及Gemini 2.5均呈现相同趋势。研究人员指出，人类虽受文字阅读自动化倾向影响，但能凭借神经抑制机制在长列表中保持稳定输出。大模型在识别任务结构后，却无法激活相应的冲突解决机制，暴露出其在模拟生物注意力与长期任务聚焦方面的根本局限。该发现为评估大模型决策能力的边界提供了关键实验依据。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

Command Palette

AI未通过经典注意力测试，长词单致准确率骤降

相关链接

Command Palette

AI未通过经典注意力测试，长词单致准确率骤降

相关链接

Command Palette

AI未通过经典注意力测试，长词单致准确率骤降

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%