AIの仕組みを解き明かす鍵は「学習過程の進化」にあり――解釈可能性研究の先駆者、ナオミ・サフラの挑戦
大規模言語モデル(LLM)の仕組みを理解するには、訓練過程そのものを観察することが不可欠だと、ハーバード大学ケンプナー研究所の研究フェローで、2026年にボストン大学に着任するナオミ・サフラ氏が主張している。彼女は、AIの理解において「進化論の光」が必要だと強調。言語モデルの学習は、確率的勾配降下法(SGD)というアルゴリズムを通じて行われ、このプロセスがモデルの本質を形作っていると指摘する。 サフラ氏は、従来の解釈研究が訓練終了後のモデル内部構造に注目するのに対し、彼女は「訓練過程そのもの」に焦点を当てるアプローチを提唱している。生物の進化史を理解することで個体の構造や行動を説明するように、AIモデルの「起源」を追うことで、なぜそのモデルが特定の振る舞いをするのかを根本から理解できると説明する。 彼女の研究では、複数の訓練実験で初期条件をランダムに変化させ、モデルの内部構造と一般化能力の関係を分析。結果として、特定の構造が出現した後に性能が急上昇するパターンを発見。これは、ある機能がその構造と同時に生まれたことを示し、因果関係の強さを裏付けている。 彼女の研究の背景には、博士課程時代に手書きやタイピングが不可能になる神経疾患にかかったという経験がある。これにより、従来の研究スタイルに追いつくことは難しく、代わりに「誰も注目していなかった」訓練ダイナミクスの研究に注力。その結果、AIの本質を問う独自の視点を確立した。 また、標準的な解釈手法の限界にも言及。たとえば、画像分類モデルで特定のニューロンが猫画像にのみ反応する現象が見られるが、このニューロンを抑制しても性能が向上することがある。つまり、表面的な関連性は「進化的な残滓」であり、実際にはモデルの本質に寄与していない可能性がある。 サフラ氏は、単に「あるニューロンが重要」という因果関係を観察するだけでは不十分だと指摘。訓練過程を追跡することで、構造と機能が「同時に出現」するかを検証でき、より正確な因果推論が可能になると強調。最終的に、解釈研究の鍵は「用語の意味を明確にできるかどうか」だと結論づけている。AIの理解は、その仕組みの「なぜ」を問うことにこそある。
