概要

本論文は、テキストによるビデオ検索という難問に取り組んでいます。この検索パラダイムでは、エンドユーザーがアドホックなクエリを自然言語の文章のみで記述し、視覚的な例を提供せずに未ラベルのビデオを検索します。ビデオをフレームのシーケンスとして、クエリを単語のシーケンスとして扱う場合、効果的なシーケンス対シーケンスのクロスモーダルマッチングが重要となります。そのためには、まず両モーダルを実数ベクトルにエンコードし、共通空間に射影する必要があります。本論文では、この目標を達成するために、ビデオとクエリをそれぞれ強力な密な表現にエンコードする二重深層エンコーディングネットワークを提案しています。本研究の新規性は二つあります。第一に、特定の単一レベルエンコーダーに依存する従来の手法とは異なり、提案されたネットワークは粗いレベルから細かいレベルまで両モーダルの豊富な内容を多段階で表現するマルチレベルエンコーディングを行います。第二に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、潜在空間の高性能と概念空間の良好な解釈可能性を組み合わせたハイブリッド空間学習を導入しています。二重エンコーディングは概念的に単純であり、実際には効果的であり、ハイブリッド空間学習によって端から端まで訓練されます。4つの課題のあるビデオデータセットにおける広範な実験により、新しい手法の有効性が示されています。

ソースPDF コードを表示