8日前

多モーダル事前学習による高密度動画キャプション生成

Gabriel Huang, Bo Pang, Zhenhai Zhu, Clara Rivera, Radu Soricut

要約

料理、車の整備、家庭内の修繕など、具体的な実践スキルを習得する際、 instructional video（指導動画）を活用する傾向が強まっています。このような動画のユーザーエクスペリエンスは、主な手順に対応するタイムスタンプ付きのメタ情報（例：注釈）によって向上することが知られています。こうした注釈を自動的に生成することは困難であり、本研究ではその点に関して2つの貢献を提示します。第一に、多様な指導動画とタイムスタンプ付きの注釈を備えた、新しい高密度動画キャプションデータセット「Video Timeline Tags（ViTT）」を構築し、公開しました。第二に、大量の非教師付き動画データおよびキャプション風テキストデータを活用する、複数のマルチモーダルシーケンス・トゥ・シーケンス事前学習戦略を検討しました。本研究では、YouCook2およびViTTの両データセットを用いて、高密度動画キャプションモデルの事前学習とその後の微調整（fine-tuning）を実施しました。その結果、こうしたモデルが幅広い種類の指導動画に対して優れた汎化性能を持ち、高いロバスト性を示すことが明らかになりました。