
要約
密な動画キャプション(Dense Video Captioning)とは、カットされていない動画から興味深いイベントを局所化し、それぞれのイベントに対してテキストによる説明(キャプション)を生成するタスクである。従来の密な動画キャプションに関する大多数の研究は、視覚情報にのみ依拠しており、音声トラックを完全に無視している。しかし、人間の観察者にとって、特に音声情報は環境を理解する上で極めて重要な手がかりである。本論文では、イベントの記述に任意の数のモダリティを活用できる新しい密な動画キャプションアプローチを提案する。具体的には、音声および音声モダリティが密な動画キャプションモデルの性能向上にどのように寄与するかを示す。我々は自動音声認識(ASR)システムを用いて、時間的に整合した音声のテキスト表現(字幕と類似)を取得し、それを動画フレームおよび対応する音声トラックと並行して独立した入力として扱う。キャプション生成タスクを機械翻訳問題として定式化し、最近提案されたTransformerアーキテクチャを用いて、マルチモーダル入力データをテキスト説明に変換する。本モデルの性能をActivityNet Captionsデータセット上で検証した結果、アブレーションスタディにより音声および音声モダリティが顕著な貢献を示しており、これらが動画フレームと相補的な情報を豊富に含んでいることが示された。さらに、元のYouTube動画から得られたカテゴリタグを活用して、ActivityNet Captionの結果に対して詳細な分析を実施した。本研究のコードは公開されており、GitHub(github.com/v-iashin/MDVC)にて入手可能である。