AI、長単語リストで注意力テスト精度低下
大規模言語モデルの注意機構に根本的限界があることが、心理学の古典的テストを用いた研究で明らかにされた。2025年1月に公開されたスクリーンショットデータに基づく研究で、スークェトゥ・パテル氏らを筆頭とするチームは、英科学誌PNAS Nexusに論文を発表。AIの認知メカニズムと人間の注意プロセスには明確な乖離があることを示した。 研究では、文字の意味とインクの色が不一致の条件でインク色を答えるストループ課題を実施した。5語リストではGPT-4oが91%、Claude 3.5 Sonnetが高精度を維持したが、リスト長が増加するにつれパフォーマンスは劇的に低下した。GPT-4oは40語で15%、Claude 3.5 Sonnetは24%まで精度が崩壊。GPT-5、Claude Opus 4.1、Gemini 2.5も同様の傾向を示し、混在条件では正答率がほぼゼロに落ち込んだ。 人間の被験者は自動的な読字を抑制してタスクを維持できるのに対し、AIは単語読字へ自動的に入力してしまう。研究チームは、モデルが課題構造を認識しているにもかかわらず衝突解決メカニズムを起動できない認識と実行の解離が存在すると指摘している。これは現在のAI設計が生体の持続的注意を再現できていないことを示唆する。大規模モデルの意思決定精度向上には、動的な注意リソースの配分制御メカニズムの構築が不可欠となる。
