2ヶ月前

自己監督学習によるクロスモーダル音声-映像クラスタリング

Humam Alwassel; Dhruv Mahajan; Bruno Korbar; Lorenzo Torresani; Bernard Ghanem; Du Tran
自己監督学習によるクロスモーダル音声-映像クラスタリング
要約

視覚モダリティと音声モダリティは高い相関性を持っていますが、異なる情報を含んでいます。この強い相関性により、一方のモダリティから他方の意味論を高い精度で予測することが可能となります。一方、これらの内在的な違いは、ビデオと音声表現の自己監督学習におけるクロスモダリティ予測が、同一モダリティ内の学習よりも潜在的に報酬性の高い前処理タスクとなる可能性があります。この直感に基づいて、私たちはクロスモダリティ深層クラスタリング(Cross-Modal Deep Clustering: XDC)という新しい自己監督手法を提案します。XDCは、一方のモダリティ(例:音声)での非監督クラスタリングを他方のモダリティ(例:視覚)の教師信号として活用します。このクロスモダリティ監督により、XDCは両モダリティ間の意味論的相関性と違いを利用することができます。実験結果では、XDCが単一モダリティクラスタリングや他のマルチモーダル変種を上回ることが示されています。XDCは複数のビデオおよび音声ベンチマークにおいて自己監督手法の中で最先端の精度を達成しています。特に重要なのは、大規模なラベルなしデータで事前学習された私たちのビデオモデルが、ImageNetやKineticsで完全に教師あり事前学習された同じモデルよりもHMDB51やUCF101での行動認識において大幅に優れていることです。当研究チームが知る限り、XDCは同じアーキテクチャ上で行動認識において大規模な完全教師あり事前学習を上回る最初の自己監督学習手法です。