HyperAIHyperAI

Command Palette

Search for a command to run...

SEA: 文章エンコーダの組み合わせによるテキストクエリでのビデオ検索

Xirong Li, Member, IEEE, Fangming Zhou, Chaoxi Xu, Jiaqi Ji, Gang Yang

概要

テキストクエリを使用してラベルの付いていないビデオを検索する技術、アドホック・ビデオ・サーチ(Ad-hoc Video Search, AVS)は、マルチメディアデータ管理と検索における主要なテーマです。AVSの成功には、クエリ文とビデオを共通の空間にエンコードし、意味的な類似性を計算するためのクロスモーダル表現学習が不可欠です。本論文では、複数の文章エンコーダーを組み合わせる初期の成功事例に着想を得て、多様な文章エンコーダーを効果的に活用する新しい一般的な手法を開発しました。この手法をセンテンス・エンコーダー・アセンブリ(Sentence Encoder Assembly, SEA)と呼びます。SEAの新規性は以下の2点にあります。第一に、従来の手法が単一の共通空間のみを使用していたのに対し、SEAは複数のエンコーダー固有の共通空間でのテキスト-ビデオマッチングをサポートします。この特性により、他のエンコーダーよりも長くエンコードベクトルを生成する特定のエンコーダーによってマッチングが支配されることが防げます。第二に、個々の共通空間間での相補性を探求するために、マルチスペース・マルチロス学習を提案しています。4つのベンチマーク(MSR-VTT, TRECVID AVS 2016-2019, TGIF, MSVD)で行われた広範な実験結果から、SEAは最先端技術を超える性能を示しています。さらに、SEAは実装が非常に簡単です。これらの特徴により、SEAはAVSに対する魅力的な解決策であり、新しい文章エンコーダーを取り入れることでタスクを継続的に進歩させる可能性があります。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています