HyperAIHyperAI

Command Palette

Search for a command to run...

OpenAIが「疎結合型モデル」で大規模AIの黒箱を解明、内部推論の可視化に成功

OpenAIが、大規模言語モデル(LLM)の「ブラックボックス」問題に挑む新たな実験モデルを開発した。同社の研究科学者レオ・ゴー氏がMITテクノロジーレビューに語ったところによると、このモデルは「重み疎結合トランスフォーマー(weight-sparse transformer)」と呼ばれ、性能はGPT-5やClaude、Geminiといった主流モデルには及ばず、GPT-1レベルの能力に相当するとされる。しかし、その特徴は「人間が内部の推論プロセスを実際に読み解ける」ことにある。 現代のLLMは、数十億の重みが稠密に接続された複雑なネットワークで構成されており、知識が分散・混在するため、どのように答えが導かれたのかを追跡することが極めて困難だ。これにより、AIが幻覚を起こす原因や、特定の判断がどうして生成されたのかが不明確な状態が続く。OpenAIは、この課題を解決するため、構造を根本から見直すアプローチを採用した。 その鍵は「疎結合」の導入にある。モデル内の多くの重みをゼロに固定し、各ニューロンが極めて少数の他のニューロンとしか接続しないように設計した。これにより、知識や処理が特定の局所的な回路に集中し、追跡可能になる。結果として、モデルの処理速度は低下し、能力も限られるが、内部の動作が明確に可視化できるようになった。 実験では、Pythonコードの文字列閉じ方(単引用符か双引用符か)を判断させるタスクに取り組んだ。従来の稠密モデルでは、処理の経路を追うことは不可能だったが、この疎結合モデルでは、開き引号の種類が特定のチャネルにエンコードされ、注意力機構がその位置を特定し、出力にコピーされるという一連のプロセスを明確に観察できた。さらに、変数の束縛や型の伝搬といった複雑なタスクでも、特定の注意ヘッドが変数名や型を正確に伝達する「部分回路」を同定できる。 この成果は、大規模モデルが完全に混沌としたものではなく、内部に構造的なパターンが存在することを示唆している。波士顿学院の数学者エリゼンダ・グリグスビー氏は、この手法がGPT-3レベルのモデルに拡張できるかには懐疑的だが、OpenAIは「数年以内に、GPT-3相当の性能を持つ完全可解明モデルが実現可能」と期待を示している。 この研究は、AIの「理解可能性」を追求する「機械的解釈性(mechanistic interpretability)」の分野において、画期的な一歩である。性能より「信頼性」を重視するAIの未来を描く上で、OpenAIのこの試みは、AIが「強力なが黒箱」から「透明で監視可能なシステム」へと進化する可能性を初めて示した。

関連リンク