Command Palette

Search for a command to run...

2日前

OpenMMReasoner:オープンかつ汎用的なレシピによるマルチモーダル推論のフロンティアの開拓

Kaichen Zhang Keming Wu Zuhao Yang Kairui Hu Bin Wang Ziwei Liu Xingxuan Li Lidong Bing

OpenMMReasoner:オープンかつ汎用的なレシピによるマルチモーダル推論のフロンティアの開拓

要約

大規模推論モデルにおける近年の進展により、その能力をマルチモーダル領域へと拡張することへの関心が高まっています。しかし、視覚的推論においては顕著な進歩が見られるものの、透明かつ再現可能なデータキュレーション手法および学習戦略の欠如が、研究の拡張性(スケーラビリティ)を阻む大きな障壁となっています。本研究では、教師あり微調整(SFT)と強化学習(RL)を組み合わせた、完全に透明性の高いマルチモーダル推論のための2段階の学習手法「OpenMMReasoner」を提案します。SFT段階では、厳格なステップ・バイ・ステップの検証を経た87万4,000サンプルからなるコールドスタート・データセットを構築し、推論能力の強固な基盤を確立します。続くRL段階では、多様なドメインにわたる7万4,000サンプルのデータセットを活用してこれらの能力をさらに研磨・安定化させ、より堅牢かつ効率的な学習プロセスを実現します。広範な評価の結果、本学習手法は強力なベースラインを凌駕するだけでなく、マルチモーダル推論の性能形成においてデータ品質と学習設計が極めて重要な役割を果たすことを明らかにしました。特筆すべき成果として、本手法は9つのマルチモーダル推論ベンチマークにおいて、Qwen2.5-VL-7B-Instructのベースラインと比較して11.6%の性能向上を達成しており、将来の大規模マルチモーダル推論研究に向けた確固たる実証的基盤を確立しました。なお、コード、パイプライン、およびデータはすべて https://github.com/EvolvingLMMs-Lab/OpenMMReasoner にてオープンソースとして公開しています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
OpenMMReasoner:オープンかつ汎用的なレシピによるマルチモーダル推論のフロンティアの開拓 | 論文 | HyperAI超神経