3ヶ月前

ビデオ理解

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

概要

強化学習によるファインチューニング（RFT）は、教師ありファインチューニング（SFT）と強化学習（RL）の2段階フレームワークとして、大規模言語モデル（LLM）の推論能力向上において有望な成果を示している。しかし、RFTを大規模な動画言語モデル（LVLM）に拡張することは依然として困難である。本研究では、視覚認識と推論を別々のプロセスとしてモデル化することで、動画推論能力を向上させる新たなプロセス意識型動画RFTフレームワーク「VideoP2R」を提案する。SFT段階では、視覚認識と推論に特化した高品質なプロセス意識型チェーン・オブ・シンキング（CoT）データセット「VideoP2R-CoT-162K」を生成するための3段階パイプラインを開発した。RL段階では、認識と推論に対して別々の報酬を提供する新たなプロセス意識型グループ相対方策最適化（PA-GRPO）アルゴリズムを導入した。広範な実験の結果、VideoP2Rは7つの動画推論・理解ベンチマークのうち6つで最先端（SotA）の性能を達成した。アブレーションスタディにより、プロセス意識型モデリングおよびPA-GRPOの有効性が確認されるとともに、モデルの認識出力が下流の推論タスクにおいて情報的に十分であることも示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

ビデオ理解

マルチモーダル表現

アプローチ／フレームワーク

マルチモーダル

コンピュータビジョン

Yifan Jiang Yueying Wang Rui Zhao Toufiq Parag Zhimin Chen Zhenyu Liao Jayakrishnan Unnikrishnan

概要

強化学習によるファインチューニング（RFT）は、教師ありファインチューニング（SFT）と強化学習（RL）の2段階フレームワークとして、大規模言語モデル（LLM）の推論能力向上において有望な成果を示している。しかし、RFTを大規模な動画言語モデル（LVLM）に拡張することは依然として困難である。本研究では、視覚認識と推論を別々のプロセスとしてモデル化することで、動画推論能力を向上させる新たなプロセス意識型動画RFTフレームワーク「VideoP2R」を提案する。SFT段階では、視覚認識と推論に特化した高品質なプロセス意識型チェーン・オブ・シンキング（CoT）データセット「VideoP2R-CoT-162K」を生成するための3段階パイプラインを開発した。RL段階では、認識と推論に対して別々の報酬を提供する新たなプロセス意識型グループ相対方策最適化（PA-GRPO）アルゴリズムを導入した。広範な実験の結果、VideoP2Rは7つの動画推論・理解ベンチマークのうち6つで最先端（SotA）の性能を達成した。アブレーションスタディにより、プロセス意識型モデリングおよびPA-GRPOの有効性が確認されるとともに、モデルの認識出力が下流の推論タスクにおいて情報的に十分であることも示された。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています