Command Palette
Search for a command to run...
Fali Wang Jihai Chen Shuhua Yang Runxue Bao Tianxiang Zhao Zhiwei Zhang Xianfeng Tang Hui Liu Qi He Suhang Wang

要約
推論時スケーリング(Test-Time Scaling, TTS)は、推論時に追加の計算リソースを割り当てることで、大規模言語モデル(LLM)の性能を向上させる手法であり、主に並列的、逐次的、またはハイブリッドなスケーリングによって実現される。しかし、従来の研究では、固定された協調アーキテクチャ(例:トポロジ)と単一モデルの使用を仮定していることが多く、最適なアーキテクチャやモデルの組み合わせはタスクによって異なり得るという点が無視されがちである。本研究では、固定された計算予算の下で、TTSにおける計算効率が最適化されたモデルの組み合わせとアーキテクチャを探索するという新しい問題に着目する。この問題を、ノードが役割とLLMの割り当てを符号化し、エッジが情報の流れを表す、多LLM協調グラフとして形式化する。この問題は、(i) 組合せの探索空間が極めて大きいために困難であり、(ii) タスク固有の要件がカスタマイズされた設計を必要とすることから、特に挑戦的である。この課題に対処するため、本研究では問題を確率的グラフ最適化として再定式化し、前もって実施した実験からTTS協調グラフに関する3つの経験的知見を導出する。これらの知見をもとに、LLMエージェントを活用したフレームワーク「Agent-REINFORCE」を提案する。このフレームワークは、サンプリング・勾配更新のプロセスを、サンプリング・フィードバック・更新に置き換えることで、REINFORCEのパイプラインを模倣する。ここで、フィードバックはテキスト形式の勾配として機能し、確率的グラフを更新することで、効率的に最適な多LLM協調グラフを探索する。実験の結果、Agent-REINFORCEは従来の手法およびLLMベースのベースラインと比較して、サンプル効率と探索性能の両面で優れた性能を示し、精度と推論遅延の両方の最適化目標を満たす最適なグラフを効果的に同定できることを確認した。