9日前

MDMMT:ビデオ検索を目的としたマルチドメイン・マルチモーダルトランスフォーマー

Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr Petiushko
MDMMT:ビデオ検索を目的としたマルチドメイン・マルチモーダルトランスフォーマー
要約

我々は、MSRVTTおよびLSMDCベンチマークにおいて、テキストから動画を検索するタスクにおいて、従来のすべての手法を大きく上回る最新の成果を報告する。さらに、微調整(fine-tuning)を施さずに、単一のモデルで2つのデータセットにおいても最先端の性能を達成した。この多ドメインへの汎化性能は、異なる動画キャプションデータセットを適切に組み合わせることで実現された。本研究では、異なるデータセット上で学習させることで、各データセットのテスト性能が相互に向上することを示した。また、多くの代表的なデータセット間の重複を調査した結果、MSRVTTにおいてテストデータとトレーニングデータの間に顕著な重複が存在することが明らかになった。同様の状況はActivityNetにおいても観察された。