16日前

WeThink：強化学習を活用した汎用視覚言語推論への道標

Yang, Jie, Ma, Feipeng, Wang, Zitian, Yin, Dacheng, Rong, Kang, Rao, Fengyun, Zhang, Ruimao

要約

テキストベースの推論モデル（例：DeepSeek-R1）の成功を踏まえ、その能力をマルチモーダル推論へと拡張することは、極めて有望な方向性である。近年の研究では、DeepSeek-R1風の強化学習（RL）訓練フレームワークをマルチモーダル大規模言語モデル（MLLM）に適用する試みがなされており、数学や視覚認識といった分野特化型タスクに焦点を当てている。しかし、依然として重要な課題が残っている：どのようにすれば、RLを用いて汎用的な視覚言語推論を実現できるか。この課題に取り組むため、我々は以下の3つの重要な貢献を行う。(1) 与えられた画像から自律的に文脈に即した、推論を重視した質問・回答（QA）ペアを生成する新しいスケーラブルなマルチモーダルQA合成パイプライン。(2) 18の多様なデータソースから収集・編集され、さまざまな質問領域をカバーする12万件を超えるマルチモーダルQAペアを含むオープンソースのWeThinkデータセット。各QAペアには推論経路が明示的にアノテーションされている。(3) 当該データセット上で実施した包括的なRLの探索。ルールベースの検証とモデルベース評価を組み合わせたハイブリッド報酬メカニズムを導入し、さまざまなタスク領域においてRL訓練の効率を最適化する。 14の多様なMLLMベンチマークにおいて、WeThinkデータセットが数学的推論から多様な汎用マルチモーダルタスクまで、モデル性能を顕著に向上させることを実証した。さらに、本研究で開発した自動化データ生成パイプラインが、継続的にデータの多様性を拡充できることを示し、モデル性能のさらなる向上が可能であることを示している。