1ヶ月前

既存のリソースを活用する:協調専門家からの表現を使用したビデオ検索

Yang Liu; Samuel Albanie; Arsha Nagrani; Andrew Zisserman
既存のリソースを活用する:協調専門家からの表現を使用したビデオ検索
要約

インターネット上のビデオの急速な増加により、自然言語クエリを使用してビデオコンテンツを検索することが大きな課題となっています。実際のビデオデータセットに対する人間が生成したクエリは、具体的さの度合いに大きく変動があり、有名人物の名前や画面上で利用可能なテキストなどの特定の詳細を記述するクエリも存在します。私たちの目標は、自由形式のテキストクエリを使用したビデオ検索タスクにおいて、具体的さの度合いが無制限である条件下で、ビデオから多様で非常に高次元的な情報を単一かつコンパクトなビデオ表現に凝縮することです。この目的のために、事前に学習された意味埋め込みという形で既存の知識を利用します。これには視覚コンテンツからの「一般的」な特徴(動き、外観、シーン特徴)が含まれます。また、「具体的」な手がかりとしてASR(自動音声認識)とOCR(光学文字認識)から得られる情報を探索し、これらの信号がビデオ検索に効果的に使用するのが難しいことを確認しました。私たちは異なる事前学習済み専門家からの情報を集約するための協調専門家モデルを提案し、MSR-VTT、LSMDC、MSVD、DiDeMo、ActivityNetという5つの検索ベンチマークに対して当該アプローチを実証的に評価しました。コードとデータはwww.robots.ox.ac.uk/~vgg/research/collaborative-experts/で入手できます。本論文では、以前のバージョンで報告された結果に対する訂正が含まれています。