16日前
エンドツーエンド型ディープビデオキャプションをシーケンス生成として扱う
Wanrong Zhu, Bo Pang, Ashish V. Thapliyal, William Yang Wang, Radu Soricut

要約
密度型動画キャプション生成は、入力動画における関心事項となるイベントを特定し、各イベントに対して記述的なキャプションを生成することを目的としている。従来のアプローチは、通常、二段階の生成プロセスに従う。すなわち、まず各イベントに対応する動画セグメントを提案し、その後、識別された各セグメントに対してキャプションを生成する。近年、大規模なシーケンス生成事前学習の進展により、多様なタスクに対して統一的なタスク定式化が可能となり、大きな成功を収めている。しかし、密度型動画キャプションのようなより複雑なタスクについては、まだその強力な枠組みを十分に活用できていない。本研究では、密度型動画キャプションの二つのサブタスクを、一つのシーケンス生成タスクとして統合的にモデル化する手法を提示し、イベントとその対応する記述を同時に予測することを実現する。YouCook2およびViTTにおける実験結果は、有望な性能を示しており、エンド・トゥ・エンドの密度型動画キャプションという複雑なタスクを、大規模事前学習モデルに統合して学習することが可能であることを示唆している。