2ヶ月前
音声強化テキストからビデオの検索:テキスト条件付き特徴量アライメントの利用
Sarah Ibrahimi; Xiaohang Sun; Pichao Wang; Amanmeet Garg; Ashutosh Sanan; Mohamed Omar

要約
テキストからビデオの検索システムは、大規模な画像-テキストペアで事前学習されたモデルを活用することで、最近大きな進歩を遂げています。しかし、最新の手法の多くはこのタスクにおいて音声信号を無視したまま、主にビデオモダリティに焦点を当てています。それでも、ECLIPSE(エクリプス)による最近の進展により、音声視覚的なビデオ表現を開発することで長距離テキストからビデオの検索が改善されました。しかし、テキストからビデオの検索タスクの目的は単に音声とビデオの対応関係を向上させることではなく、テキストクエリに関連する補完的な音声とビデオ情報を捉えることです。この問題に対処するために、私たちはTEFAL(TExt-conditioned Feature ALignment)という方法を提案します。これは、テキストクエリに基づいて音声とビデオ表現を作り出す手法です。単なる音声視覚的な注意ブロックを使用するだけでは、テキストクエリに関連する音声情報が抑制される可能性があるため、私たちのアプローチでは2つの独立したクロスモーダル注意ブロックを使用します。これにより、テキストが音声表現とビデオ表現に対して個別に注意を払うことが可能になります。我々が提案する手法の有効性は、MSR-VTT、LSMDC、VATEX、Charadesという4つのベンチマークデータセット(これらには音声が含まれています)で示されており、これらの4つのデータセットにおいて一貫して最先端の性能を超える結果を得ています。これは追加的なテキストクエリ条件付き音声表現とその補完的な情報がテキストクエリ条件付きビデオ表現に加わることによって達成されています。