
要約
私たちは、ビデオと音声から音響視覚表現を学習するための自己監督学習アプローチを提案します。当方法は、ビデオと音声のクロスモーダルな識別に照準を合わせた対比的学習を使用します。本研究では、モーダル内識別よりもクロスモーダルな識別に最適化することが、ビデオと音声から優れた表現を学習するために重要であることを示しています。この単純ながら強力な洞察に基づき、当方法は行動認識タスクでのファインチューニング時に非常に競争力のある性能を達成します。さらに、最近の対比的学習に関する研究ではポジティブサンプルとネガティブサンプルを個々のインスタンスとして定義していますが、私たちはクロスモーダルな合意を探求することでこの定義を一般化しました。ビデオと音声の特徴空間における類似性を測定することにより、複数のインスタンスをポジティブとしてグループ化します。クロスモーダルな合意はより良いポジティブセットとネガティブセットを作成し、これによりポジティブインスタンスのモーダル内識別を求めることで視覚的な類似性を調整し、下流タスクにおいて大幅な改善を達成することができます。