部分的に関連するビデオの検索

現在のテキストからビデオ検索(Text-to-Video Retrieval, T2VR)の手法は、MSVD、MSR-VTT、VATEXなどのビデオキャプショニング指向のデータセットで訓練およびテストされています。これらのデータセットの重要な特性は、ビデオが時間的に事前に切り詰められており、短い期間であると仮定されていること、そして提供されるキャプションがビデオ内容の要点を適切に説明していることです。したがって、与えられたペアのビデオとキャプションに対して、ビデオはキャプションに関連していると想定されます。しかし現実では、クエリが事前に知られていないため、事前切り詰められたビデオクリップには十分な内容が含まれていない可能性があります。これは、文献と現実世界との間にギャップがあることを示唆しています。このギャップを埋めるために、本論文では新たなT2VRサブタスクとして部分的に関連するビデオ検索(Partially Relevant Video Retrieval, PRVR)を提案します。未切り詰めされたビデオが与えられたテキストクエリに対して部分的に関連すると考えられるのは、そのビデオの中にクエリに関連する瞬間が含まれている場合です。PRVRは、大量の未切り詰めされたビデオからこのような部分的に関連するビデオを検索することを目指しています。PRVRは単一のビデオ瞬間検索やビデオコーパス瞬間検索とは異なります。後者の2つは瞬間を検索するものであり、未切り詰めされたビデオ全体を対象にしていません。PRVRを多様例学習(Multiple Instance Learning, MIL)問題として定式化し、ビデオを同時に複数のビデオクリップと複数のフレームの集合体として捉えます。クリップとフレームは異なる時間スケールでビデオコンテンツを表現します。私たちはマルチスケール類似度学習(Multi-Scale Similarity Learning, MS-SL)ネットワークを提案し、PRVRのためにクリップスケールとフレームスケールでの類似度を共同で学習します。3つのデータセット(TVR, ActivityNet Captions, Charades-STA)における広範な実験により、提案手法の有効性が示されました。また私たちの手法がビデオコーパス瞬間検索の改善にも利用できることも示しました。