中国の研究者が国際認知科学学会の多様性と社会的不平等賞を初受賞。大規模モデルと人間の心理測定の違いを解明した。
第47回国際认知科学学会年会(CogSci2025)で、国防科技大学・中国科学院情報工学研究所・新加坡科技研究機関の共同研究チームが発表した論文『AIPsychoBench: Understanding the Psychometric Differences between LLM and Humans』が、学会が設ける「多様性と社会的不平等賞」(Diversity & Social Inequality Award)を受賞した。これは中国研究者初の受賞であり、かつては全米トップ大学(耶鲁、スタンフォードなど)の研究者が独占していた同賞の歴史に一石を投じた。国際認知科学学会(CSS)は1979年設立の世界最高権威組織で、AI、心理学、神経科学、言語学など多分野の専門家が集う。この賞は、認知科学における心理的多様性や社会的不平等に焦点を当てた研究を評価するもので、国際的な信頼性が高い。 本研究の背景は、大規模言語モデル(LLM)が医療や金融など高リスク分野で利用される中で、その「不可解な判断」が問題視されていることにある。LLMは人間のデータから学習し、類人知能を示すが、その認知メカニズムや「心理的特徴」の測定は未解決の課題だった。特に、既存の心理量表をそのままLLMに適用すると、2つの根本的な問題が生じる。第一に、LLMは「対齊訓練」により中立的・客観的な回答を優先し、「参加するか否か」のような選択肢に対して「私はAIなので参加できません」といった無効な回答を示す。第二に、言語によって回答が大きく変化する「言語依存性」が確認された。たとえば、英語で「直接断る」を選ぶが、中国語では「婉曲に断る」を選ぶなど、文化的背景がモデルの「人格」に影響する。 研究チームは、これらの課題を解決するため、4段階のフレームワークを構築した。まず、21種類の心理量表(112問、777項目)を収集。次に、「軽量な役割扮演」提示文を用いて、LLMに「心理調査の回答者」として振る舞わせ、対齊による制約を回避。さらに、英語を含む7言語に翻訳し、多言語比較を実施。最後に、GPT-4oを用いて回答の整合性を検証し、信頼性の高いデータベース「AIPsychoBench」を構築した。 結果として、軽量な役割扮演が有効回答率を41%向上させ、かつ心理測定バイアスを3%程度に抑えることが示された。また、言語がLLMの心理的傾向に顕著な影響を与えることが明らかになり、特にアラビア語や中国語での宗教・完璧主義関連の項目で20%以上の差異が確認された。これは、LLMが「言語ごとに異なる文化の傾向」を再現している証拠であり、心理測定には言語を「前提変数」として取り入れる必要があることを示唆する。 本研究は、「機械心理学」の標準化に貢献し、中国がAIと認知科学の融合研究で世界をリードする可能性を示した。一方、シンガポール国立大学の蔺奇カ博士らは、胸部X線画像の解釈に特化した医学基礎モデル「DeepMedix-R1」を開発。強化学習と合成推論データを組み合わせ、診断の推論過程を可視化し、画像の特定領域と結びつけることで、医師が信頼できる診断支援を可能にした。このモデルは、遠隔診療や医療格差の是正にも貢献し、今後の臨床導入が期待される。
