3ヶ月前

Video ReCap: 1時間に及ぶ動画の再帰的キャプション化

Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

要約

大多数の動画キャプションモデルは、数秒程度の短い動画クリップを処理し、物体やシーン、原子的な行動といった低レベルの視覚的概念を記述するテキストを出力するように設計されている。しかし、実世界の動画の多くは数分乃至数時間にわたり、異なる時間的粒度にわたる複雑な階層構造を持つ。本研究では、1秒から2時間に至るまで著しく異なる長さの動画入力を処理可能であり、複数の階層レベルでの動画キャプションを出力できる再帰型動画キャプションモデル「Video ReCap」を提案する。再帰的な動画・言語アーキテクチャは、異なる時間的階層間の相乗効果を活用し、長時間の動画（数時間）を効率的に処理できる。また、学習プロセスにおいてカリキュラム学習（curriculum learning）の手法を採用し、原子的な行動を記述するクリップレベルのキャプションから始め、段階的にセグメントレベルの記述へと移行し、最終的には数時間の動画全体の要約を生成するという階層的な構造を学習する。さらに、Ego4Dデータセットに8,267件の手動で収集された長距離動画要約を追加して構築した「Ego4D-HCap」データセットを導入した。本研究で提案する再帰型モデルは、異なる階層レベルでのキャプション生成を柔軟に可能にするだけでなく、EgoSchemaにおけるVideoQA（動画質問応答）をはじめとする他の複雑な動画理解タスクにも有効である。データ、コード、モデルは以下のURLから公開されている：https://sites.google.com/view/vidrecap