中国科学院提出基于信息论的强化学习微调框架L2T,显著提升大模型推理效率与准确率
中国科学院ソフトウェア研究所の研究チームは、大規模言語モデル(LLMs)の複雑な論理推論能力を向上させるため、情報理論に基づく強化学習微調整フレームワーク「Learning to Think(L2T)」を提案した。このフレームワークは、モデルの推論精度と計算効率の両立を実現し、実用的な推論最適化に向けた新たな技術的アプローチを提供する。 近年、LLMsは単なる自然言語処理を越え、多段階の論理的推論を要する課題にも応用されるようになっている。しかし、従来の手法は推論の最終結果のみを報酬として利用しており、中間ステップへのフィードバックが不足している。その結果、冗長な計算が発生し、リソースの無駄や推論品質の低下を招く問題があった。 L2Tはこの課題を解決するため、推論プロセスを複数ラウンドに分かれた階層的対話としてモデル化。さらに、情報理論に基づく稠密なプロセス報酬機構を導入。各推論ステップでの「情報増加量」を評価し、有効な推論手順を強化、無駄な生成を抑制する。この報酬信号をもとに、改良されたGRPOアルゴリズムを用いてモデルを微調整することで、推論経路の精密な制御を可能にした。 AIME、AMC、HumanEvalなどの主要な推論ベンチマークで検証した結果、L2TはDeepScaleR-1.5B-PreviewやDeepSeek-R1-Distill-Qwen-1.5Bといった複数のモデルで、従来の結果報酬ベース手法と比較して、正確率が3.2%以上向上し、トークン効率は2倍に改善された。また、他のプロセス報酬ベースの手法と比較しても、正確率で約2%、効率で1.2倍の優位性を示した。多タスク評価では、異なる難易度のタスクで平均3%の精度向上が達成され、異なるトークン予算下でも一貫した性能優位性を維持した。 本研究は、AIの知能的推論をより効率的かつ信頼性高くする道筋を示し、NeurIPS 2025で発表された。中国科学院の研究チームは、AIの本質的な推論能力を高める技術革新の先頭に立っている。
