HyperAIHyperAI

Command Palette

Search for a command to run...

AIフィードバックを用いた強化学習による大規模マルチモーダルモデルのビデオ向け調整

Daechul Ahn Yura Choi Youngjae Yu Dongyeop Kang Jonghyun Choi

概要

最近の大規模言語モデル(LLM)の進歩は、ビデオ大規模多モーダルモデル(VLMM)の開発に影響を与えています。従来のVLMMアプローチでは、指示調整データセットを使用した監督微調整(SFT)、視覚エンコーダとの統合、および追加学習可能なモジュールの追加が行われていました。ビデオとテキストの多モーダルアライメントは依然として課題であり、これは主に単一テキストデータに比べて多モーダル指示調整データの量と質が不足しているためです。本稿では、自己監視を行う多モーダルAIシステムを用いた新しいアライメント戦略、強化学習によるAIフィードバック(Reinforcement Learning from AI Feedback: RLAIF)を提案します。この方法は自己好ましいフィードバックを提供して自己改良を行い、ビデオとテキストモーダリティのアライメントを促進します。具体的には、詳細なビデオ説明をコンテクストとして提供することで、好ましいフィードバック生成時のビデオコンテンツ理解を豊かにするコンテクスト認識型報酬モデリングを提案しています。様々なビデオベンチマークにおいて優れた性能を示しており、当社の多モーダルRLAIFアプローチであるVLM-RLAIFは既存の手法、特にSFTモデルを上回っています。当社はこの分野でのさらなる研究を促進するため、コード、モデル、データセットのオープンソース化へのコミットメントを表明します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています