2ヶ月前

音声視覚一般化ゼロショット学習におけるクロスモーダル注意と言語

Mercea, Otniel-Bogdan ; Riesch, Lukas ; Koepke, A. Sophia ; Akata, Zeynep
音声視覚一般化ゼロショット学習におけるクロスモーダル注意と言語
要約

訓練データに含まれていないクラスのビデオデータを分類する技術、すなわちビデオベースのゼロショット学習は、挑戦的な課題である。我々は、ビデオデータにおける音響と視覚モダリティ間の自然な対応関係が、判別的なマルチモーダル表現を学習するための豊富な教師信号を提供すると推測している。特に音響-視覚ゼロショット学習という比較的未開拓のタスクに焦点を当てて、クロスモーダル注意(cross-modal attention)を用いて音響-視覚データからマルチモーダル表現を学習し、テキストラベル埋め込み(textual label embeddings)を利用して既知クラスから未知クラスへの知識転送を行う手法を提案する。さらに一歩進めて、我々の一般化された音響-視覚ゼロショット学習設定では、テスト時の探索空間にすべての訓練クラスを含めることで、それらが干渉因子となり難易度が増加しつつも現実的な設定となるようにしている。この領域において統一されたベンチマークが不足していることを受け、VGGSound, UCF, および ActivityNet という3つの異なるサイズと難易度を持つ音響-視覚データセット上で(一般化された)ゼロショット学習ベンチマークを導入した。これにより、未知のテストクラスがバックボーン深層モデルの監督学習に使用されるデータセットには出現しないことが保証されている。複数の関連する最新手法と比較して示した結果によると、我々が提案する AVCA モデルはこれら3つのデータセット全てで最先端の性能を達成している。コードとデータは \url{https://github.com/ExplainableML/AVCA-GZSL} で公開されている。

音声視覚一般化ゼロショット学習におけるクロスモーダル注意と言語 | 最新論文 | HyperAI超神経