HyperAIHyperAI

Command Palette

Search for a command to run...

AudioCLIP: CLIPの画像、テキスト、音声への拡張

Andrey Guzhov Federico Raue Jörn Hees Andreas Dengel

概要

過去、音響分類の急速に進化する分野は、他の領域からの手法の応用により大きく恩恵を受けました。今日では、領域固有のタスクとアプローチを融合させる傾向が観察されており、これによりコミュニティに新たな優れたモデルが提供されています。本研究では、テキストと画像だけでなく音声も処理できるCLIPモデルの拡張版を提案します。提案されたモデルは、AudioSetデータセットを使用してCLIPフレームワークにESResNeXt音響モデルを組み込むことで構築されています。このような組み合わせにより、提案されたモデルはバイモーダルおよびユニモーダル分類と検索を実行しながら、CLIPが未知のデータセットに対してゼロショット推論で一般化する能力を維持できます。AudioCLIPは環境音分類(ESC)タスクにおいて新しい最先端の結果を達成し、UrbanSound8Kデータセットで90.07%、ESC-50データセットで97.15%の精度を記録することで他の手法を上回りました。さらに、同じデータセットでのゼロショットESCタスクにおいても新しい基準値(それぞれ68.78%と69.40%)を設定しています。最後に、提案されたモデルのクロスモーダル検索性能および完全学習と部分学習の影響についても評価を行いました。再現性のために、我々のコードは公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています