2ヶ月前
Retrieving-to-Answer: 冷凍大規模言語モデルを使用したゼロショット動画質問応答
Junting Pan; Ziyi Lin; Yuying Ge; Xiatian Zhu; Renrui Zhang; Yi Wang; Yu Qiao; Hongsheng Li

要約
ビデオ質問応答(VideoQA)は、最近の大型言語モデル(LLMs)のスケーリングにより大幅に進歩しました。その中心的なアイデアは、視覚情報を言語特徴空間に変換することで、LLMsの能力を最大限に活用することです。既存のVideoQA手法は通常、以下の2つのパラダイムを取ります:(1) 複合モーダルアライメントの学習、(2) 既製のキャプショニングモデルを使用して視覚データを説明する。しかし、前者の設計は多くの追加の複合モーダルデータで高コストな訓練が必要であり、後者はドメイン一般化が制限されているためさらに制約されます。これらの課題に対処するために、単純ながら効果的な検索から回答(Retrieving-to-Answer, R2A)フレームワークが提案されました。入力ビデオに対して、R2Aはまず事前学習済みの複合モーダルモデル(例:CLIP)を使用して汎用テキストコーパスから一連の意味的に類似したテキストを検索します。質問と検索されたテキストを両方使用することで、LLM(例:DeBERTa)を直接利用して望ましい回答を得ることができます。クロスモーダル微調整の必要がないため、R2Aではすべて的主要なコンポーネント(LLM、検索モデル、テキストコーパスなど)がプラグアンドプレイ可能となります。いくつかのVideoQAベンチマークでの広範な実験結果から、13億パラメータを持つ当社のR2Aモデルが微調整を行わずとも61倍大きいFlamingo-80Bモデル(さらに約21億件の複合モーダルデータで訓練されたものも含む)を上回ることが示されています。