HyperAI超神经

在国际认知科学领域最高学术盛会——第47届国际认知科学学会年会（CogSci2025）上，由中国国防科技大学计算机学院、中国科学院信息工程研究所与新加坡科技研究机构联合完成的研究《AIPsychoBench: Understanding the Psychometric Differences between LLM and Humans》荣获年度唯一“Diversity & Social Inequality Award”最佳论文奖。这是中国学者首次在该权威奖项中折桂，打破了过去由耶鲁、斯坦福等美国顶尖高校长期主导的局面，标志着中国在认知科学与人工智能交叉研究领域迈入国际前沿。该奖项由国际认知科学学会（Cognitive Science Society, CSS）设立，旨在表彰聚焦心理与行为多样性、社会不平等问题的杰出研究，其评审由跨学科专家委员会主导，具有极高的国际公信力。此次获奖不仅彰显了研究的学术创新性，更体现了中国研究在推动认知科学包容性发展方面的独特贡献。研究聚焦大语言模型（LLM）在心理测量层面的“不可解释性”难题。尽管LLM在类人智能方面表现突出，但其认知机制仍不清晰。现有研究多直接套用人类心理学量表，却面临两大核心挑战：一是LLM的“对齐训练”使其在面对倾向性问题时倾向于给出中立或客观回应，导致无法捕捉真实心理倾向；二是不同语言环境下，LLM的心理测量结果存在显著差异，表现出“语言依赖性人格”，与人类稳定的心理特质形成鲜明对比。为破解上述困境，研究团队构建了名为AIPsychoBench的系统性框架：首先筛选21种心理量表共777个问题，形成标准化测试集；其次设计轻量级角色扮演提示词，引导LLM以“心理调查受访者”身份作答，有效提升有效回答率并控制偏差；第三，将测试集翻译为中、英、俄、法、西、阿、德、日等8种语言，验证语言对心理测量的影响；最后引入GPT-4o作为审核模型，确保评分与解释的一致性，构建高质量LLM心理测量数据库。实验结果揭示两大关键发现：其一，轻量级角色扮演可使有效回答率提升41%，平均心理测量偏差控制在3%以内，显著优于强人设“越狱”方法；其二，语言是影响LLM心理测量结果的关键变量，不同语言下得分差异可达9%-20%，尤其在宗教、文化相关议题上表现明显，印证了LLM“心理特质”受预训练语料文化倾向影响的本质。该研究首次系统构建了多语言、低偏差、可复现的LLM心理测量基准，为“机器心理学”这一新兴交叉学科提供了方法论基石，推动AI可解释性研究迈向标准化时代。其突破性成果不仅填补了LLM与人类心理测量差异的研究空白，更展现了中国在基础前沿交叉研究中的“并跑”能力，为全球认知科学贡献了非西方视角的重要范式。尽管仍面临模型稳定性、推理可靠性等挑战，但该研究为未来构建“机器专属”心理评估体系、理解AI认知本质提供了坚实起点。随着跨学科合作深化，人类与AI的认知边界或将迎来更深刻的重新定义。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

中国学者首获国际认知科学学会多元与不平等奖

相关链接

Command Palette

中国学者首获国际认知科学学会多元与不平等奖

相关链接

Command Palette

中国学者首获国际认知科学学会多元与不平等奖

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化