HyperAIHyperAI

Command Palette

Search for a command to run...

PANNs:音声パターン認識のための大規模事前学習音声ニューラルネットワーク

Qiuqiang Kong Yin Cao Turab Iqbal Yuxuan Wang Wenwu Wang Mark D. Plumbley

概要

音声パターン認識は機械学習分野における重要な研究テーマであり、音声タグ付け、音響シーン分類、音楽分類、話者感情分類、音響イベント検出など、多様なタスクを含んでいる。近年、ニューラルネットワークが音声パターン認識の課題解決に応用されつつある。しかし、これまでのシステムは限定的な期間を持つ特定のデータセットに依拠して構築されてきた。一方、コンピュータビジョンおよび自然言語処理分野では、大規模データセットで事前学習されたモデルが、複数のタスクに良好に汎化する実績がある。一方で、音声パターン認識において大規模データセットでの事前学習システムに関する研究は依然として限られている。本論文では、大規模なAudioSetデータセット上で学習された事前学習音声ニューラルネットワーク(PANNs)を提案する。これらのPANNsは、他の音声関連タスクへの転移学習に利用される。さまざまな畳み込みニューラルネットワーク(CNN)アーキテクチャを用いてPANNsの性能と計算複雑度を調査した。また、波形とログメルスペクトログラムの両方を入力特徴として用いる「Wavegram-Logmel-CNN」という新規アーキテクチャを提案する。最良のPANNシステムは、AudioSetタグ付けタスクにおいて、従来の最高性能(0.392)を上回る最先端の平均平均精度(mAP)0.439を達成した。さらに、PANNsを6つの音声パターン認識タスクに転移適用し、そのうち複数のタスクで最先端の性能を示した。本研究で開発したPANNsのソースコードおよび事前学習モデルは、以下より公開している:https://github.com/qiuqiangkong/audioset_tagging_cnn


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PANNs:音声パターン認識のための大規模事前学習音声ニューラルネットワーク | 記事 | HyperAI超神経