HyperAIHyperAI

Command Palette

Search for a command to run...

中国学者首获国际认知科学学会多元与不平等奖

在国际认知科学领域最高学术盛会——第47届国际认知科学学会年会(CogSci2025)上,由中国国防科技大学计算机学院、中国科学院信息工程研究所与新加坡科技研究机构联合完成的研究《AIPsychoBench: Understanding the Psychometric Differences between LLM and Humans》荣获年度唯一“Diversity & Social Inequality Award”最佳论文奖。这是中国学者首次在该权威奖项中折桂,打破了过去由耶鲁、斯坦福等美国顶尖高校长期主导的局面,标志着中国在认知科学与人工智能交叉研究领域迈入国际前沿。 该奖项由国际认知科学学会(Cognitive Science Society, CSS)设立,旨在表彰聚焦心理与行为多样性、社会不平等问题的杰出研究,其评审由跨学科专家委员会主导,具有极高的国际公信力。此次获奖不仅彰显了研究的学术创新性,更体现了中国研究在推动认知科学包容性发展方面的独特贡献。 研究聚焦大语言模型(LLM)在心理测量层面的“不可解释性”难题。尽管LLM在类人智能方面表现突出,但其认知机制仍不清晰。现有研究多直接套用人类心理学量表,却面临两大核心挑战:一是LLM的“对齐训练”使其在面对倾向性问题时倾向于给出中立或客观回应,导致无法捕捉真实心理倾向;二是不同语言环境下,LLM的心理测量结果存在显著差异,表现出“语言依赖性人格”,与人类稳定的心理特质形成鲜明对比。 为破解上述困境,研究团队构建了名为AIPsychoBench的系统性框架:首先筛选21种心理量表共777个问题,形成标准化测试集;其次设计轻量级角色扮演提示词,引导LLM以“心理调查受访者”身份作答,有效提升有效回答率并控制偏差;第三,将测试集翻译为中、英、俄、法、西、阿、德、日等8种语言,验证语言对心理测量的影响;最后引入GPT-4o作为审核模型,确保评分与解释的一致性,构建高质量LLM心理测量数据库。 实验结果揭示两大关键发现:其一,轻量级角色扮演可使有效回答率提升41%,平均心理测量偏差控制在3%以内,显著优于强人设“越狱”方法;其二,语言是影响LLM心理测量结果的关键变量,不同语言下得分差异可达9%-20%,尤其在宗教、文化相关议题上表现明显,印证了LLM“心理特质”受预训练语料文化倾向影响的本质。 该研究首次系统构建了多语言、低偏差、可复现的LLM心理测量基准,为“机器心理学”这一新兴交叉学科提供了方法论基石,推动AI可解释性研究迈向标准化时代。其突破性成果不仅填补了LLM与人类心理测量差异的研究空白,更展现了中国在基础前沿交叉研究中的“并跑”能力,为全球认知科学贡献了非西方视角的重要范式。 尽管仍面临模型稳定性、推理可靠性等挑战,但该研究为未来构建“机器专属”心理评估体系、理解AI认知本质提供了坚实起点。随着跨学科合作深化,人类与AI的认知边界或将迎来更深刻的重新定义。

相关链接