17日前
CLIP2TV:ビデオ・テキスト検索のためのアライメント、マッチング、およびディスティル化
Zijian Gao, Jingyu Liu, Weiqi Sun, Sheng Chen, Dedan Chang, Lili Zhao

要約
現代の動画-テキスト検索フレームワークは、基本的に3つの構成要素からなる:動画エンコーダ、テキストエンコーダ、および類似度ヘッドである。視覚的表現学習およびテキスト表現学習の成功に伴い、トランスフォーマーに基づくエンコーダおよび統合手法も、動画-テキスト検索分野に導入されつつある。本報告では、トランスフォーマーに基づく手法における重要な要素がどこにあるかを明らかにすることを目的として、CLIP2TVを提案する。これを達成するため、まず多モーダル学習に関する最近の研究を再検討し、その技術を動画-テキスト検索に適用した後、さまざまな設定において広範な実験を通じてその有効性を評価した。注目すべきは、CLIP2TVがMSR-VTTデータセットにおいて52.9@R1を達成し、従来のSOTA(最先端)結果を4.1%上回ったことである。