2ヶ月前

PLLaVA : 画像から動画へのパラメータフリーのLLaVA拡張による動画の密集キャプショニング

Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, Jiashi Feng
PLLaVA : 画像から動画へのパラメータフリーのLLaVA拡張による動画の密集キャプショニング
要約

画像言語事前学習は、幅広い画像言語応用において性能を大幅に向上させました。しかし、ビデオ関連タスクの事前学習プロセスには非常に大規模な計算リソースとデータリソースが必要であり、これによりビデオ言語モデルの進歩が阻害されています。本論文では、既存の画像言語事前学習モデルを高密度ビデオ理解に適応させるための単純かつ効率的で軽量なアプローチを調査しています。初期実験では、複数フレームを入力としてビデオデータセット上で直接微調整を行うと、性能が飽和するか、場合によっては低下することが明らかになりました。さらに調査した結果、これは主に学習された高ノルム視覚特徴のバイアスによるものであることが判明しました。この知見に基づき、私たちは時間次元に沿って特徴分布を平滑化し、極端な特徴からの支配的な影響を軽減するための単純ながら効果的なプーリング戦略を提案します。新しいモデルは「Pooling LLaVA」(略してPLLaVA)と呼ばれています。PLLaVAは、現代のベンチマークデータセットにおけるビデオ質問回答およびキャプショニングタスクで新たな最先端の性能を達成しています。特に最近注目を集めているVideo ChatGPTベンチマークにおいて、PLLaVAは5つの評価次元の平均で3.48点(満点5点)を獲得しており、GPT4V (IG-VLM) の以前の最良結果を9%上回っています。最新の多肢選択式ベンチマークMVBenchにおいても、PLLaVAは20個のサブタスク全体で平均58.1%の精度を達成しており、GPT4V (IG-VLM) より14.5%高い結果となっています。コードは https://github.com/magic-research/PLLaVA で公開されています。

PLLaVA : 画像から動画へのパラメータフリーのLLaVA拡張による動画の密集キャプショニング | 最新論文 | HyperAI超神経