
我々は、新しいマルチモーダル検索データセット「TV show Retrieval(TVR)」を紹介する。TVRは、動画とその関連する字幕(会話)テキストの両方を理解する必要があるため、より現実的な課題を提供する。このデータセットには、6つのジャンルにわたるテレビ番組から収集された21,800本の動画上で、合計109,000件のクエリが含まれており、各クエリは明確な時間窓(tight temporal window)と関連付けられている。さらに、各クエリは「動画中心」「字幕中心」「両方に関連」のいずれかを示すクエリタイプとしてラベル付けされており、データセットおよびその上に構築された手法の詳細な分析を可能にする。収集されたデータの品質を確保するため、厳格な資格審査および後処理の検証プロセスを実施している。また、複数のベースラインと、マルチモーダル瞬間検索タスクに向けた新規な「クロスモーダル瞬間局所化(Cross-modal Moment Localization: XML)」ネットワークを提示する。提案するXMLモデルは、新規の畳み込み型開始・終了検出器(Convolutional Start-End detector: ConvSE)を用いたラテ・フェュージョン設計を採用しており、従来のベースラインを大きく上回る性能を達成するとともに、効率性も優れている。これにより、今後の研究に強力な出発点を提供する。さらに、TVRの各注釈付き瞬間に対して追加の記述を収集し、合計26万件のキャプションを含む新しいマルチモーダルキャプションデータセット「TV show Caption(TVC)」を構築した。両方のデータセットは公開されている。TVR: https://tvr.cs.unc.eduTVC: https://tvr.cs.unc.edu/tvc.html