HyperAI超神経
Back to Headlines

AIモデルの思考を調査、動的シナリオ予測に木構造数学を使用

4日前

MITのコンピューターサイエンスと人工知能研究所(CSAIL)と電気工学・コンピュータサイエンス部門の研究者が、言語モデルの状態変化追跡メカニズムに関する新しい論文を発表しました。この研究では、言語モデルが人間のような逐次的な方法ではなく、巧みな数学的なショートカットを使って情報を処理していることが明らかになりました。主な関係者はMITの博士課程学生であるBelinda Li SM '23であり、彼女はこの研究の筆頭著者です。 研究チームは、言語モデルが数字の並べ替え(パーミュテーション)を推測する過程で、2つの主要パターンを観察しました。「結合アルゴリズム」(Associative Algorithm)は、近接した手順をグループ化し、それらを階層的に処理することで最終的な推測を計算します。このプロセスを木の構造に例えることができます。初期の数字の配列が「根」になり、上に進むにつれて各手順が異なる枝にグループ化され、最終的に各枝の結果を掛けて最終的な数字の組み合わせを算出します。 一方、「パリティ結合アルゴリズム」(Parity-Associative Algorithm)は、最終的な並べ替えが偶数または奇数の回数の数字の入れ替えによって得られるかどうかをまず決定します。その後、異なる手順間の近接したシーケンスをグループ化してから乗算します。このアルゴリズムも結合アルゴリズムと同様に動作しますが、より複雑な指示に苦戦することが観察されました。Liは、この現象がパリティ結合アルゴリズムが直感的なヒューリスティクス(短時間で妥当な解を導き出すルール)に頼りすぎているためだと説明しています。 研究チームは、「プロービング」と「アクティベーションパッチング」というツールを使って、これらのアルゴリズムの内部プロセスを分析しました。プロービングはAIシステム内の情報フローを可視化する手法で、実験中に言語モデルがどのような予測をしているかをマッピングします。アクティベーションパッチングは特定の部分の「アイデア」に誤った情報を注入して他の部分を一定に保ち、システムがどのように予測を調整するかを観察する手法です。これらのツールにより、アルゴリズムが誤りを犯す timing や正しく最終的なパーミュテーションを推測できるようになるタイミングが明らかになりました。結果として、結合アルゴリズムはパリティ結合アルゴリズムよりも学習速度が早く、長いシーケンスでも良好な性能を示すことが確認されました。 これらの新しい洞察は、言語モデルの予測能力を向上させるために、従来の逐次的な処理方法より深さ方向にテスト時の計算を拡張することを提唱しています。つまり、transformerの層の数を増やすことで、モデルはより深い推論ツリーを構築でき、動的で複雑なタスクでの性能を改善できる可能性があります。Liは、訓練初期にヒューリスティクスに頼りすぎると、モデルはその短縮法を機構に取り込み、汎化性能が低下する可能性があると指摘しています。そのため、将来的には特定の前訓練課題を通じて、モデルがヒューリスティクスに過度に頼らないように設計することが重要になると考えています。 背景の補足として、この研究は合成データを用いて小規模の言語モデルをテストしましたが、モデルのサイズが結果に大きな影響を与えていないことから、大規模な言語モデル(GPT 4.1など)でも同様の結果が得られると予想されます。チームは、これにより動的な実世界タスク(例えばコードの追跡やストーリーの進展の理解)における言語モデルの性能を評価する計画を立てています。 ハーバード大学の博士研究員であるKeyon Vafaは、この研究が言語モデルの進化に新たな機会をもたらす可能性があると评论しています。许多の大規模言語モデルの用途は状態の追跡に依存しており、例えばレシピの提供、コードの書式付け、会話中の詳細の追跡などが該当します。この論文の成果は、言語モデルがどのようにこれらのタスクを行っているかを理解する上で大きな進歩をなし遂げ、モデルの改善にとって有望な新戦略を提示しています。 以上から、この研究は言語モデルの内部構造を深く理解し、それらが自然に使用する手法を重視することで、動的な状況変化の追跡能力を大幅に向上させることができる可能性を提起しています。これは、実世界の動的なタスクにおいて言語モデルの信頼性と効果性を高めるために重要な洞察を提供しています。

Related Links