HyperAIHyperAI

Command Palette

Search for a command to run...

『模倣ゲーム:チューリングマシンの模倣者は長さ一般化可能である』

Zhouqi Hua Wenwei Zhang Chengqi Lyu Yuzhe Gu Songyang Gao Kuikun Liu Kai Chen

概要

長さの一般化、すなわち訓練中に観察されたシーケンスよりも長いシーケンスの問題を解く能力は、トランスフォーマーに基づく大規模言語モデル(LLM)にとって核心的な課題となっています。既存の研究では主に算術演算や記号操作タスクに対するデータ駆動型アプローチが焦点となってきましたが、これらのアプローチは特定のタスクに限定され、全体的な性能が限られている傾向があります。より一般的な解決策を追求するため、本論文では計算可能である、つまりアルゴリズムによって解ける問題、したがってチューリングマシンによって解ける問題という広範な推論問題に焦点を当てます。この視点から、本論文ではLLMの長さ一般化能力を向上させるためにチューリングマシン模倣学習(TAIL)を提案します。TAILはコンピュータプログラムによりチューリングマシンの実行過程を模倣した思考チェーン(CoT)データを合成し、推論ステップを原子状態に線形に展開することでショートカット学習を緩和し、明示的なメモリフェッチ機構を通じて基本操作における動的かつ長距離のデータアクセスの難易度を低減します。TAILの信頼性と普遍性を検証するために、8つのアルゴリズムクラスと18つのタスクをカバーする挑戦的な合成データセットを作成しました。特別な工夫なしに、TAILは合成データのみを使用してQwen2.5-7Bの長さ一般化能力および様々なタスクでの性能を大幅に向上させることができ、従来の方法やDeepSeek-R1を超える結果を得ました。実験結果は、思考スタイルではなくチューリングマシン内の重要な概念がTAILにおける長さ一般化のために不可欠であることを示しており、これによりモデルは注意層においてチューリングマシンの特性と一致する読み書き動作を示すことが明らかになりました。本研究は合成データからのLLM推論学習に関する将来の研究に対して有望な方向性を提供しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
『模倣ゲーム:チューリングマシンの模倣者は長さ一般化可能である』 | 記事 | HyperAI超神経