3ヶ月前

概要

大規模推論モデルにおける近年の進展により、その能力をマルチモーダル領域へと拡張することへの関心が高まっています。しかし、視覚的推論においては顕著な進歩が見られるものの、透明かつ再現可能なデータキュレーション手法および学習戦略の欠如が、研究の拡張性（スケーラビリティ）を阻む大きな障壁となっています。本研究では、教師あり微調整（SFT）と強化学習（RL）を組み合わせた、完全に透明性の高いマルチモーダル推論のための2段階の学習手法「OpenMMReasoner」を提案します。SFT段階では、厳格なステップ・バイ・ステップの検証を経た87万4,000サンプルからなるコールドスタート・データセットを構築し、推論能力の強固な基盤を確立します。続くRL段階では、多様なドメインにわたる7万4,000サンプルのデータセットを活用してこれらの能力をさらに研磨・安定化させ、より堅牢かつ効率的な学習プロセスを実現します。広範な評価の結果、本学習手法は強力なベースラインを凌駕するだけでなく、マルチモーダル推論の性能形成においてデータ品質と学習設計が極めて重要な役割を果たすことを明らかにしました。特筆すべき成果として、本手法は9つのマルチモーダル推論ベンチマークにおいて、Qwen2.5-VL-7B-Instructのベースラインと比較して11.6%の性能向上を達成しており、将来の大規模マルチモーダル推論研究に向けた確固たる実証的基盤を確立しました。なお、コード、パイプライン、およびデータはすべて https://github.com/EvolvingLMMs-Lab/OpenMMReasoner にてオープンソースとして公開しています。

ソースPDF