2ヶ月前
動詞副詞検索における合成的な副詞-動作埋め込み
Thomas Hummel; Otniel-Bogdan Mercea; A. Sophia Koepke; Zeynep Akata

要約
動画内の動作を描写する副詞の抽出は、細かいレベルでの動画理解において重要なステップです。本研究では、動画と副詞(およびその逆)の検索フレームワークを提案します。このフレームワークは、動画埋め込みと対応する合成的な副詞-動作テキスト埋め込みを共同埋め込み空間で一致させます。合成的な副詞-動作テキスト埋め込みは、残差ゲーティング機構を使用して学習され、三つ組損失と回帰目標からなる新しい訓練目的と共に用いられます。当手法は、最近の5つのビデオ-副詞検索ベンチマークで最先端の性能を達成しています。さらに、MSR-VTT AdverbsデータセットとActivityNet Adverbsデータセットのサブセットに対して、未見の副詞-動作組み合わせに対するビデオ-副詞検索をベンチマークするために新たなデータセット分割を導入します。提案したフレームワークは、未見の副詞-動作組み合わせから動画に含まれる副詞を検索する一般化タスクにおいて、これまでのすべての先行研究を上回っています。コードとデータセット分割は、https://hummelth.github.io/ReGaDa/ で公開されています。