概要

私たちは、先進的なオープンソースのビジョン言語モデル（VLM）であるSkywork-R1V3を紹介します。このモデルは視覚推論に新しいアプローチを切り開くもので、その主要な革新点はテキストのみの大型言語モデル（LLM）から視覚タスクへの推論スキルの効果的な転送にあります。Skywork-R1V3の優れた性能は、私たちが考案した精巧なポストトレーニング強化学習（RL）フレームワークに主に由来しています。このフレームワークにより、追加の事前学習なしでモデルの推論能力を活性化および強化することができます。さらに、このフレームワークを通じて、マルチモーダル推論モデルにおいて堅牢なクロスモーダルアライメントを達成するためのコネクタモジュールの基本的な役割を明らかにしました。また、推論能力の指標として、重要な推論トークンのエントロピーという独自の指標を導入しました。これはRLトレーニング中のチェックポイント選択において非常に効果的であることが証明されています。Skywork-R1V3はMMMUで最先端の結果を達成し、64.3%から76.0%へと大幅に改善しました。この性能は初級レベルの人間的能力と匹敵します。特に注目すべきは、私たちが採用したRLによるポストトレーニングアプローチが38Bパラメータを持つモデルでも最上位クラスのクローズドソースVLMと競争できるようにしたことです。実装では数学的推論が他の科目に関連する推論タスクにも成功して転送されました。本研究ではカリキュラム学習や強化学習微調整戦略の分析も含め、マルチモーダル推論に関するより広範な議論を行っています。Skywork-R1V3はマルチモーダル推論における大きな飛躍であり、オープンソースVLM機能向上のためにRLが強力なエンジンとなることを示しています。

ソースPDF