Command Palette
Search for a command to run...
Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

要約
複数モーダル大規模言語モデル(MLLM)は、段階的思考能力を備えることで、複雑な推論問題において優れた性能を発揮している。しかし、複雑な推論を必要としない単純な問題に対しては、このような思考プロセスは冗長である。この非効率性を解消するため、本研究では問題の複雑さに応じて思考を自適に選択できる「自己思考型MLLM」R-4Bを提案する。R-4Bの中心的なアイデアは、二モードアニーリングを用いてモデルに「思考」と「非思考」の両方の能力を付与し、二モード方策最適化(Bi-mode Policy Optimization, BPO)を導入することで、思考プロセスを起動すべきかどうかを正確に判断する能力を向上させることである。具体的には、まず、さまざまなトピックにわたる精心に構成されたデータセット上でモデルを学習し、その中には思考モードと非思考モードの両方のサンプルが含まれる。その後、改良されたGRPOフレームワーク下で第二段階の学習を実施し、各入力クエリに対して、モデルが両モードから応答を生成するよう強制する。実験結果から、R-4Bは25の困難なベンチマークにおいて最先端の性能を達成した。多数のタスクにおいてQwen2.5-VL-7Bを上回り、計算コストが低いにもかかわらず、Kimi-VL-A3B-Thinking-2506(16B)のような大規模モデルと同等の性能を、推論が重視されるベンチマークで達成している。