17日前

VideoXum:動画のクロスモーダル視覚的・テクスチャ的要約

Jingyang Lin, Hang Hua, Ming Chen, Yikang Li, Jenhao Hsiao, Chiuman Ho, Jiebo Luo
VideoXum:動画のクロスモーダル視覚的・テクスチャ的要約
要約

ビデオ要約は、元のビデオから最も重要な情報を抽出し、短縮された映像クリップまたはテキスト形式の要約を生成することを目的としています。従来、出力形式が映像かテキストかによって異なる手法が提案されてきましたが、視覚的要約とテキスト的要約という意味的に関連する二つのタスク間の相関関係を無視する傾向がありました。本研究では、新たな共同要約タスクとして「映像とテキストの同時要約」を提案します。このタスクの目的は、長時間のビデオから短縮された映像クリップとそれに対応するテキスト要約を同時に生成し、これらを統合して「クロスモーダル要約」と呼ぶことです。生成された短縮映像とテキスト要約は、意味的に整合性が高いことが求められます。これを実現するため、まず、ActivityNetに基づいて再アノテーションを施した大規模な人間によるアノテーション付きデータセット「VideoXum(Xは異なるモーダルを表す)」を構築しました。長さ要件を満たさない動画を除外した結果、本データセットには合計14,001本の長時間動画が残存しました。各動画に対して、人間がアノテーションした映像要約と対応する物語的要約が付与されています。次に、本研究で提示するタスクの課題に対応するため、新たなエンドツーエンド型モデル「VTSUM-BILP」を設計しました。さらに、クロスモーダル要約の意味的一貫性を評価するための新しい指標「VT-CLIPScore」を提案しました。提案モデルは本タスクにおいて優れた性能を達成し、今後の研究のためのベンチマークを確立しました。