Command Palette

Search for a command to run...

1ヶ月前

SIM-CoT:教師付き暗黙的チェーン・オブ・シンキング

Xilin Wei Xiaoran Liu Yuhang Zang Xiaoyi Dong Yuhang Cao Jiaqi Wang Xipeng Qiu Dahua Lin

SIM-CoT:教師付き暗黙的チェーン・オブ・シンキング

要約

暗黙的思考過程(Implicit Chain-of-Thought, CoT)手法は、大規模言語モデル(LLM)における明示的CoT推論の代替として、トークン効率性に優れた有望なアプローチを提供しているが、持続的な性能差が暗黙的CoTの実用化を制限している。本研究では、暗黙的CoT手法の計算リソースを拡張する過程で、核心的な潜在的不安定性の要因を特定した。すなわち、性能向上を目的に暗黙的推論トークン数を増加させるほど、訓練プロセスが不安定になり、崩壊する傾向がある。分析の結果、この不安定性は、既存の暗黙的CoT手法における段階レベルの教師信号の不足に起因し、潜在表現が均質化し、意味的多様性を失うことに起因することが明らかになった。この問題に対処するため、我々はSIM-CoTを提案する。SIM-CoTは、プラグアンドプレイ型の訓練モジュールであり、段階レベルの教師信号を導入することで、潜在的推論空間の安定化と豊かさを実現する。具体的には、訓練中に補助デコーダを用いて、各暗黙的トークンが対応する明示的推論ステップと一致するように調整し、潜在状態が明確で意味のある情報を捉えることを保証する。推論フェーズでは補助デコーダを削除するため、暗黙的CoT手法の計算効率は維持され、追加のオーバーヘッドは生じない。さらに、補助デコーダにより、各潜在トークンを明示的推論語彙に射影することで、暗黙的推論の解釈可能性が向上し、各ステップにおける意味的役割の可視化や診断が可能となる。SIM-CoTは、さまざまな暗黙的CoT手法の域内精度と域外安定性を顕著に向上させ、GPT-2上でCoconutベースラインを+8.2%、LLaMA-3.1 8B上でCODIベースラインを+3.0%向上させる。また、強力なスケーラビリティを示し、GPT-2では明示的CoTベースラインを2.1%上回りながら、2.3倍のトークン効率を達成。さらに、LLaMA-3.1 8Bのような大規模モデルにおいても、性能差を著しく縮小している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています