
要約
私たちは、音声-視覚表現を学習するための自己監督フレームワークであるCrissCrossを提案します。当該フレームワークでは、モーダル間および標準的な「同期」クロスモーダル関係に加えて、新たに「非同期」クロスモーダル関係も学習するという革新的な概念が導入されています。詳細な研究を通じて、音声と視覚モーダルの時間的同期性を緩和することで、ネットワークは多様な下流タスクに有用な強力な一般化表現を学習することが示されています。提案されたソリューションの事前学習には、Kinetics-Sound、Kinetics400、AudioSetの3つの異なるサイズのデータセットを使用しました。学習した表現は、行動認識、音声分類、行動検索といった数々の下流タスクで評価されました。実験結果は、UCF101およびHMDB51での行動認識と行動検索において、CrissCrossが現行の最先端自己監督方法に匹敵または優れた性能を達成し、ESC50およびDCASEでの音声分類でも同様の結果を得ていることを示しています。さらに、Kinetics-Sound上で事前学習した場合、CrissCrossは完全監督による事前学習を上回る性能を発揮します。本プロジェクトに関連するコードと事前学習済みモデルはプロジェクトウェブサイトで公開されています。