6ヶ月前

音声および音声処理

オーディオ

コンピュータビジョン

Yuan Gong Yu-An Chung James Glass

概要

音声タグ付け（audio tagging）は活発な研究分野であり、幅広い応用が期待されている。AudioSetの公開以降、モデル性能の向上には、新規なモデルアーキテクチャやアテンションモジュールの開発が主な要因となってきている。しかし本研究では、AudioSetを用いた音声タグ付けモデルの構築において、適切な学習技術がモデル性能の向上に果たす役割は同様に重要であるにもかかわらず、その重要性が十分に認識されていないことに気づいた。このギャップを埋めるために、本研究ではPSLAと呼ばれる学習技術の集合を提案する。この集合は、ImageNetでの事前学習、バランスサンプリング、データ拡張、ラベル強化、モデルアンサンブルといった技術と、それらの設計選択を含んでおり、モデルの精度を顕著に向上させる効果がある。これらの技術を用いてEfficientNetを学習した結果、パラメータ数1360万の単一モデルとアンサンブルモデルが、それぞれAudioSetにおいて平均精度（mAP）0.444および0.474を達成し、従来の最高性能を記録していた8100万パラメータのモデル（mAP 0.439）を上回った。さらに、本モデルはFSD50Kにおいても新たな最良のmAP（0.567）を達成し、最先端の性能を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

オーディオ

コンピュータビジョン

Yuan Gong Yu-An Chung James Glass

概要

音声タグ付け（audio tagging）は活発な研究分野であり、幅広い応用が期待されている。AudioSetの公開以降、モデル性能の向上には、新規なモデルアーキテクチャやアテンションモジュールの開発が主な要因となってきている。しかし本研究では、AudioSetを用いた音声タグ付けモデルの構築において、適切な学習技術がモデル性能の向上に果たす役割は同様に重要であるにもかかわらず、その重要性が十分に認識されていないことに気づいた。このギャップを埋めるために、本研究ではPSLAと呼ばれる学習技術の集合を提案する。この集合は、ImageNetでの事前学習、バランスサンプリング、データ拡張、ラベル強化、モデルアンサンブルといった技術と、それらの設計選択を含んでおり、モデルの精度を顕著に向上させる効果がある。これらの技術を用いてEfficientNetを学習した結果、パラメータ数1360万の単一モデルとアンサンブルモデルが、それぞれAudioSetにおいて平均精度（mAP）0.444および0.474を達成し、従来の最高性能を記録していた8100万パラメータのモデル（mAP 0.439）を上回った。さらに、本モデルはFSD50Kにおいても新たな最良のmAP（0.567）を達成し、最先端の性能を実現した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています