Command Palette
Search for a command to run...
文脈の限界を越えて:長期的な推論のための無意識的なつながり
文脈の限界を越えて:長期的な推論のための無意識的なつながり
Hongyin Luo Nathaniel Morgan Tina Li Derek Zhao Ai Vy Ngo Philip Schroeder Lijie Yang Assaf Ben-Kish Jack OBrien James Glass
概要
大規模言語モデル(LLM)の文脈制限が推論の精度と効率を妨げるボトルネックとなっているため、我々はThread Inference Model(TIM)を提案する。TIMは再帰的かつ分解的な問題解決を目的としたLLMのシリーズであり、TIMRUNは文脈制限を超えて長期的な構造化された推論を可能にする推論実行時環境である。TIMはTIMRUN上で動作し、単一の言語モデル推論においてほぼ無限の作業メモリとマルチホップのツール呼び出しをサポートする。これにより、出力制限、位置埋め込みの制約、およびGPUメモリのボトルネックを克服する。性能は、自然言語を線形シーケンスではなく、長さと深さの両方で測定された推論木としてモデル化することによって達成される。推論木は、Schroeder et al., 2025で提案したコンセプトに基づき、思考を伴うタスク、再帰的なサブタスク、および結論から構成される。生成時に、我々は位置埋め込みとGPUメモリページの再利用を可能にするルールベースのサブタスク削減機構によって、最も関連性の高い文脈トークンのキー・バリューステートのみを保持する作業メモリを維持する。実験結果によると、本システムはGPUメモリにおけるKVキャッシュの90%まで操作しても、高い推論スループットを維持できる。また、数学的なタスクにおいて正確な推論を実現し、長期的な推論とマルチホップのツール使用を必要とする情報検索の課題にも対応できる。