8ヶ月前

ビデオ理解

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

概要

動画内の動作を描写する副詞の抽出は、細かいレベルでの動画理解において重要なステップです。本研究では、動画と副詞（およびその逆）の検索フレームワークを提案します。このフレームワークは、動画埋め込みと対応する合成的な副詞-動作テキスト埋め込みを共同埋め込み空間で一致させます。合成的な副詞-動作テキスト埋め込みは、残差ゲーティング機構を使用して学習され、三つ組損失と回帰目標からなる新しい訓練目的と共に用いられます。当手法は、最近の5つのビデオ-副詞検索ベンチマークで最先端の性能を達成しています。さらに、MSR-VTT AdverbsデータセットとActivityNet Adverbsデータセットのサブセットに対して、未見の副詞-動作組み合わせに対するビデオ-副詞検索をベンチマークするために新たなデータセット分割を導入します。提案したフレームワークは、未見の副詞-動作組み合わせから動画に含まれる副詞を検索する一般化タスクにおいて、これまでのすべての先行研究を上回っています。コードとデータセット分割は、https://hummelth.github.io/ReGaDa/ で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ理解

マルチモーダル

マルチモーダル表現

マルチモーダル

コンピュータビジョン

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

概要

動画内の動作を描写する副詞の抽出は、細かいレベルでの動画理解において重要なステップです。本研究では、動画と副詞（およびその逆）の検索フレームワークを提案します。このフレームワークは、動画埋め込みと対応する合成的な副詞-動作テキスト埋め込みを共同埋め込み空間で一致させます。合成的な副詞-動作テキスト埋め込みは、残差ゲーティング機構を使用して学習され、三つ組損失と回帰目標からなる新しい訓練目的と共に用いられます。当手法は、最近の5つのビデオ-副詞検索ベンチマークで最先端の性能を達成しています。さらに、MSR-VTT AdverbsデータセットとActivityNet Adverbsデータセットのサブセットに対して、未見の副詞-動作組み合わせに対するビデオ-副詞検索をベンチマークするために新たなデータセット分割を導入します。提案したフレームワークは、未見の副詞-動作組み合わせから動画に含まれる副詞を検索する一般化タスクにおいて、これまでのすべての先行研究を上回っています。コードとデータセット分割は、https://hummelth.github.io/ReGaDa/ で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています