8ヶ月前

マルチモーダル表現

ビデオ理解

マルチモーダル

マルチモーダル

コンピュータビジョン

Pedro Morgado Nuno Vasconcelos Ishan Misra

概要

私たちは、ビデオと音声から音響視覚表現を学習するための自己監督学習アプローチを提案します。当方法は、ビデオと音声のクロスモーダルな識別に照準を合わせた対比的学習を使用します。本研究では、モーダル内識別よりもクロスモーダルな識別に最適化することが、ビデオと音声から優れた表現を学習するために重要であることを示しています。この単純ながら強力な洞察に基づき、当方法は行動認識タスクでのファインチューニング時に非常に競争力のある性能を達成します。さらに、最近の対比的学習に関する研究ではポジティブサンプルとネガティブサンプルを個々のインスタンスとして定義していますが、私たちはクロスモーダルな合意を探求することでこの定義を一般化しました。ビデオと音声の特徴空間における類似性を測定することにより、複数のインスタンスをポジティブとしてグループ化します。クロスモーダルな合意はより良いポジティブセットとネガティブセットを作成し、これによりポジティブインスタンスのモーダル内識別を求めることで視覚的な類似性を調整し、下流タスクにおいて大幅な改善を達成することができます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル表現

ビデオ理解

マルチモーダル

マルチモーダル

コンピュータビジョン

Pedro Morgado Nuno Vasconcelos Ishan Misra

概要

私たちは、ビデオと音声から音響視覚表現を学習するための自己監督学習アプローチを提案します。当方法は、ビデオと音声のクロスモーダルな識別に照準を合わせた対比的学習を使用します。本研究では、モーダル内識別よりもクロスモーダルな識別に最適化することが、ビデオと音声から優れた表現を学習するために重要であることを示しています。この単純ながら強力な洞察に基づき、当方法は行動認識タスクでのファインチューニング時に非常に競争力のある性能を達成します。さらに、最近の対比的学習に関する研究ではポジティブサンプルとネガティブサンプルを個々のインスタンスとして定義していますが、私たちはクロスモーダルな合意を探求することでこの定義を一般化しました。ビデオと音声の特徴空間における類似性を測定することにより、複数のインスタンスをポジティブとしてグループ化します。クロスモーダルな合意はより良いポジティブセットとネガティブセットを作成し、これによりポジティブインスタンスのモーダル内識別を求めることで視覚的な類似性を調整し、下流タスクにおいて大幅な改善を達成することができます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています