2ヶ月前

R-4B：バイモードアニーリングと強化学習を用いたMLLMsにおける汎用自己思考能力のインセンティブ化

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

要約

複数モーダル大規模言語モデル（MLLM）は、段階的思考能力を備えることで、複雑な推論問題において優れた性能を発揮している。しかし、複雑な推論を必要としない単純な問題に対しては、このような思考プロセスは冗長である。この非効率性を解消するため、本研究では問題の複雑さに応じて思考を自適に選択できる「自己思考型MLLM」R-4Bを提案する。R-4Bの中心的なアイデアは、二モードアニーリングを用いてモデルに「思考」と「非思考」の両方の能力を付与し、二モード方策最適化（Bi-mode Policy Optimization, BPO）を導入することで、思考プロセスを起動すべきかどうかを正確に判断する能力を向上させることである。具体的には、まず、さまざまなトピックにわたる精心に構成されたデータセット上でモデルを学習し、その中には思考モードと非思考モードの両方のサンプルが含まれる。その後、改良されたGRPOフレームワーク下で第二段階の学習を実施し、各入力クエリに対して、モデルが両モードから応答を生成するよう強制する。実験結果から、R-4Bは25の困難なベンチマークにおいて最先端の性能を達成した。多数のタスクにおいてQwen2.5-VL-7Bを上回り、計算コストが低いにもかかわらず、Kimi-VL-A3B-Thinking-2506（16B）のような大規模モデルと同等の性能を、推論が重視されるベンチマークで達成している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

R-4B：バイモードアニーリングと強化学習を用いたMLLMsにおける汎用自己思考能力のインセンティブ化

Jie Jiang Qi Yang Bolin Ni Shiming Xiang Han Hu Houwen Peng

要約

AI で AI を構築

Hyper Newsletters