2ヶ月前
軽量アテンション特徴融合: テキストからビデオの検索における新しいベースライン
Hu, Fan ; Chen, Aozhu ; Wang, Ziyue ; Zhou, Fangming ; Dong, Jianfeng ; Li, Xirong

要約
本論文では、テキストからビデオへの検索という新しい文脈において、古くからのトピックである特徴量融合を再検討する。これまでの研究では、ビデオまたはテキストのいずれか一方でのみ特徴量融合を考えていたが、我々は統一されたフレームワーク内で両方の端で特徴量融合を行うことを目指す。我々は、計算負荷の高いマルチヘッド自己注意機構によって特徴量の相関関係をモデル化するよりも、凸結合による最適化が好ましいと考える。この仮説に基づき、軽量注意型特徴量融合(Lightweight Attentional Feature Fusion: LAFF)を提案する。LAFFは初期段階と後期段階、そしてビデオとテキストの両端で特徴量融合を行い、多様な(既存の)特徴量を活用する強力な手法である。LAFFの解釈可能性は特徴量選択に利用できる。5つの公開ベンチマークデータセット(MSR-VTT, MSVD, TGIF, VATEX, TRECVID AVS 2016-2020)における広範な実験により、LAFFがテキストからビデオへの検索における新たな基準となることが確認された。