HyperAIHyperAI

Command Palette

Search for a command to run...

Skywork-R1V3 技術報告書

Wei Shen Jiangbo Pei Yi Peng Xuchen Song Yang Liu Jian Peng Haofeng Sun Yunzhuo Hao Peiyu Wang Yahui Zhou

概要

私たちは、先進的なオープンソースのビジョン言語モデル(VLM)であるSkywork-R1V3を紹介します。このモデルは視覚推論に新しいアプローチを切り開くもので、その主要な革新点はテキストのみの大型言語モデル(LLM)から視覚タスクへの推論スキルの効果的な転送にあります。Skywork-R1V3の優れた性能は、私たちが考案した精巧なポストトレーニング強化学習(RL)フレームワークに主に由来しています。このフレームワークにより、追加の事前学習なしでモデルの推論能力を活性化および強化することができます。さらに、このフレームワークを通じて、マルチモーダル推論モデルにおいて堅牢なクロスモーダルアライメントを達成するためのコネクタモジュールの基本的な役割を明らかにしました。また、推論能力の指標として、重要な推論トークンのエントロピーという独自の指標を導入しました。これはRLトレーニング中のチェックポイント選択において非常に効果的であることが証明されています。Skywork-R1V3はMMMUで最先端の結果を達成し、64.3%から76.0%へと大幅に改善しました。この性能は初級レベルの人間的能力と匹敵します。特に注目すべきは、私たちが採用したRLによるポストトレーニングアプローチが38Bパラメータを持つモデルでも最上位クラスのクローズドソースVLMと競争できるようにしたことです。実装では数学的推論が他の科目に関連する推論タスクにも成功して転送されました。本研究ではカリキュラム学習や強化学習微調整戦略の分析も含め、マルチモーダル推論に関するより広範な議論を行っています。Skywork-R1V3はマルチモーダル推論における大きな飛躍であり、オープンソースVLM機能向上のためにRLが強力なエンジンとなることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています