
要約
大量のラベルなし動画を視聴し、音声を聴くことで何が学べるのかという問いについて考察します。動画自体には、これまで活用されていなかった貴重な情報源が含まれています。それは、視覚ストリームと音声ストリームの対応関係です。本研究では、この情報を活用する新たな「オーディオ-ビジュアル対応(Audio-Visual Correspondence)」学習タスクを導入します。視覚ネットワークと音声ネットワークを、動画そのもの以外の追加的な監督情報なしでゼロから訓練することにより、このタスクが成功裏に解決できることを示しています。さらに興味深いことに、良好な視覚および音声表現が得られることも確認されています。これらの特徴は、2つのサウンド分類ベンチマークにおいて新しい最先端の成果を達成しており、ImageNet分類においても最先端の自己教師ありアプローチと同等の性能を発揮しています。また、ネットワークが両モダリティでの物体位置特定や細かい認識タスクを行う能力があることも示しています。