大規模モデル語彙長大、アテンション機構破綻
ニューヨーク市立大学クイーンズ校の研究チームが、PNAS Nexusに大規模言語モデルの注意機構に関する実証研究を発表した。心理学の古典的テストストループ課題を用い、LLMが長文脈下での情報競合をどう処理するかを調査した。 GPT-4oやClaude 3.5 Sonnet、GPT-5やClaude Opus 4.1、Gemini 2.5 Proなど複数モデルをテストした結果、短序列では高正確率を示したが、リスト長が40語に達すると性能が劇的に低下した。コンテキスト容量不足や視覚認識の欠陥ではなく、意味情報と色彩情報の衝突時に注意リソースが不均等に分配され、色彩信号が意味信号に埋没することが原因と特定された。モデルは課題ルールを把握できるものの、実行時に自己適応的な制御力を発揮できず、思考チェーン有効化時でも外部コード実行で回避する傾向が確認された。 研究者は、Transformerの自己注意機構が統計的重み付けに過ぎず、生物の脳のようなリアルタイム制御を伴うトップダウン型の実行制御ネットワークを欠くため、長距離競合タスクで安定性が損なわれると指摘する。単なるパラメータ増強では根本解決に至らず、選択的注意や前頭葉模倣の門限制御導入が不可欠である。本成果は、静的ベンチマークに加え認知心理学的手法を用いた動的評価の重要性を示し、干渉環境下での目標維持メカニズム構築が次世代AI開発の鍵であることを明確にした。
