7日前
イテレーティブなビデオ・テキスト共同トークン化を用いたビデオ質問応答
AJ Piergiovanni, Kairo Morton, Weicheng Kuo, Michael S. Ryoo, Anelia Angelova

要約
動画質問応答は、言語入力、動画フレーム内の視覚的情報、および動画内で発生する出来事に関する時間的情報を統合的に理解する必要がある挑戦的なタスクである。本論文では、複数の動画入力を用い、新たな動画・テキスト反復的コトークン化(co-tokenization)手法を導入した、動画質問応答用の新規マルチストリーム動画エンコーダーを提案する。このモデルは、MSRVTT-QA、MSVD-QA、IVQAなど複数のデータセット上で実験評価が行われ、従来の最先端手法を大きく上回る性能を達成した。同時に、モデルの必要GFLOPsは150~360からわずか67に削減され、非常に効率的な動画質問応答モデルを実現した。