大規模言語モデルが人間の視覚的意味理解を再現、脳活動と一致する新たな指標の発見
大規模言語モデル(LLM)が人間の脳が日常の景色を捉える理解力と類似していることが、新研究で明らかになった。ユネス・ド・モントリオール大学の心理学者イアン・チャレスト教授らの研究チームは、Nature Machine Intelligenceに論文を発表。自然なシーンの記述をLLMに入力することで、その「意味」を言語として表現する「言語的指紋」を生成し、人間の脳の反応と一致することを確認した。 実験では、MRIスキャナーで人間が「子供たちが遊んでいる様子」や「大都市のスカイライン」などを見た際の脳活動と、LLMが同じシーンの記述から生成した言語表現を比較。その結果、両者のパターンが非常に類似しており、LLMが人間の視覚的理解を再現できていることが示された。例えば、LLMは一文で「人がいる場所」「食べ物のシーン」「顔が映っている場面」など、視覚的情報の意味を正確に予測できる。 さらに研究チームは、画像を入力してLLMの「指紋」を予測する人工ニューラルネットワークを開発。このネットワークは、現在の最先端のAIビジョンモデルよりも脳の反応をより正確に再現した。しかも、そのモデルは学習データ量がはるかに少ないにもかかわらず、優れた性能を発揮した。 この研究の第一著者はベルリン自由大学のアドリアン・ドエリグ教授、オズナブルック大学のティム・キエツマン教授らのチームが支援した。チャレスト教授は、「人間の脳が視覚シーンを理解する方法が、現代の言語モデルのテキスト理解と驚くほど似ている可能性がある」と指摘。今後の応用として、思考の解読や脳-コンピュータインターフェースの向上、自転車や自動運転車のより人間らしい視覚認識システムの構築が期待される。また、視覚障がい者向けの視覚補助装置の開発にもつながる可能性がある。この成果は、人間が視覚世界から意味をどう捉えているかを解明する上で、重要な一歩とされる。