2ヶ月前
SEA: 文章エンコーダの組み合わせによるテキストクエリでのビデオ検索
Li, Xirong ; Zhou, Fangming ; Xu, Chaoxi ; Ji, Jiaqi ; Yang, Gang

要約
テキストクエリを使用してラベルの付いていないビデオを検索する技術、アドホック・ビデオ・サーチ(Ad-hoc Video Search, AVS)は、マルチメディアデータ管理と検索における主要なテーマです。AVSの成功には、クエリ文とビデオを共通の空間にエンコードし、意味的な類似性を計算するためのクロスモーダル表現学習が不可欠です。本論文では、複数の文章エンコーダーを組み合わせる初期の成功事例に着想を得て、多様な文章エンコーダーを効果的に活用する新しい一般的な手法を開発しました。この手法をセンテンス・エンコーダー・アセンブリ(Sentence Encoder Assembly, SEA)と呼びます。SEAの新規性は以下の2点にあります。第一に、従来の手法が単一の共通空間のみを使用していたのに対し、SEAは複数のエンコーダー固有の共通空間でのテキスト-ビデオマッチングをサポートします。この特性により、他のエンコーダーよりも長くエンコードベクトルを生成する特定のエンコーダーによってマッチングが支配されることが防げます。第二に、個々の共通空間間での相補性を探求するために、マルチスペース・マルチロス学習を提案しています。4つのベンチマーク(MSR-VTT, TRECVID AVS 2016-2019, TGIF, MSVD)で行われた広範な実験結果から、SEAは最先端技術を超える性能を示しています。さらに、SEAは実装が非常に簡単です。これらの特徴により、SEAはAVSに対する魅力的な解決策であり、新しい文章エンコーダーを取り入れることでタスクを継続的に進歩させる可能性があります。