HyperAIHyperAI

Command Palette

Search for a command to run...

Gemma-2B/12Bの3段階事実想起回路を解明

機械的解釈可能性研究において、Gemma-2BおよびGemma-12B-ITモデルにおける事実知識の内部表現と想起経路を特定する新たな解析が報告された。本研究は、アクティベーション・パッチング手法を用い、20の知識カテゴリに跨る60組のクリーンと破損プロンプトペアを対象に、Transformerによる事実想起の因果経路を局在化させることを目的としている。 解析では、クリーンと破損プロンプト間のロジット差を指標とするスコアを用いて信号強度の高いペアを選別し、各層および計算成分の寄与度を段階的に隔離した。その結果、Gemmaモデルファミリーには一貫した3フェーズ構造が存在することが実証された。第1フェーズ記憶では、エンティティトークン位置において残差ストリームが知識を符号化し、注意機構やMLPサブレイヤーよりも支配的な因果的影響を及ぼす。第2フェーズルーティングでは、信号は単一の注意ヘッドに依存せず、複数のヘッドが協調して最終トークン位置へ分散移動させる。第3フェーズ読み出しでは、後期層において符号化済みの信号が計算されず参照される受動的プロセスが発見された。 この構造はモデル規模の拡大に伴い比例スケーリングされることも確認された。Gemma-12B-ITにおいても記憶は早期から中期層へ移行し、ルーティングは依然として分散型であり、読み出しは後期層に集中するという特徴は2Bモデルと同一である。ただし、トークン化処理の違いに起因するデータセットドリフトがモデル間比較に制約をもたらし、クロスモデル解析においては事前のトークナイザー検証が不可欠であることも指摘された。 計算機リソースの制約により更大規模モデルへの拡張は未完了であるが、今後の研究方向性として、ノード間ではなく辺レベルの因果関係を特定するパス・パッチング手法の適用や、疎性自己符号化器を用いた注意機構の協調メカニズム解明が提案されている。事実想起経路の局在化は、モデルの故障時における標的介入の設計に直結する基盤知見である。本解析結果はアーキテクチャ横断的な検証を踏まえ、大規模言語モデルの内部動作解明と信頼性向上に貢献すると期待される。

関連リンク