8ヶ月前

概要

最近の大規模言語モデル（LLM）の進歩は、ビデオ大規模多モーダルモデル（VLMM）の開発に影響を与えています。従来のVLMMアプローチでは、指示調整データセットを使用した監督微調整（SFT）、視覚エンコーダとの統合、および追加学習可能なモジュールの追加が行われていました。ビデオとテキストの多モーダルアライメントは依然として課題であり、これは主に単一テキストデータに比べて多モーダル指示調整データの量と質が不足しているためです。本稿では、自己監視を行う多モーダルAIシステムを用いた新しいアライメント戦略、強化学習によるAIフィードバック（Reinforcement Learning from AI Feedback: RLAIF）を提案します。この方法は自己好ましいフィードバックを提供して自己改良を行い、ビデオとテキストモーダリティのアライメントを促進します。具体的には、詳細なビデオ説明をコンテクストとして提供することで、好ましいフィードバック生成時のビデオコンテンツ理解を豊かにするコンテクスト認識型報酬モデリングを提案しています。様々なビデオベンチマークにおいて優れた性能を示しており、当社の多モーダルRLAIFアプローチであるVLM-RLAIFは既存の手法、特にSFTモデルを上回っています。当社はこの分野でのさらなる研究を促進するため、コード、モデル、データセットのオープンソース化へのコミットメントを表明します。

ソースPDF