2ヶ月前

AudioCLIP: CLIPの画像、テキスト、音声への拡張

Guzhov, Andrey ; Raue, Federico ; Hees, Jörn ; Dengel, Andreas
AudioCLIP: CLIPの画像、テキスト、音声への拡張
要約

過去、音響分類の急速に進化する分野は、他の領域からの手法の応用により大きく恩恵を受けました。今日では、領域固有のタスクとアプローチを融合させる傾向が観察されており、これによりコミュニティに新たな優れたモデルが提供されています。本研究では、テキストと画像だけでなく音声も処理できるCLIPモデルの拡張版を提案します。提案されたモデルは、AudioSetデータセットを使用してCLIPフレームワークにESResNeXt音響モデルを組み込むことで構築されています。このような組み合わせにより、提案されたモデルはバイモーダルおよびユニモーダル分類と検索を実行しながら、CLIPが未知のデータセットに対してゼロショット推論で一般化する能力を維持できます。AudioCLIPは環境音分類(ESC)タスクにおいて新しい最先端の結果を達成し、UrbanSound8Kデータセットで90.07%、ESC-50データセットで97.15%の精度を記録することで他の手法を上回りました。さらに、同じデータセットでのゼロショットESCタスクにおいても新しい基準値(それぞれ68.78%と69.40%)を設定しています。最後に、提案されたモデルのクロスモーダル検索性能および完全学習と部分学習の影響についても評価を行いました。再現性のために、我々のコードは公開されています。

AudioCLIP: CLIPの画像、テキスト、音声への拡張 | 最新論文 | HyperAI超神経