6ヶ月前

概要

音声パターン認識は機械学習分野における重要な研究テーマであり、音声タグ付け、音響シーン分類、音楽分類、話者感情分類、音響イベント検出など、多様なタスクを含んでいる。近年、ニューラルネットワークが音声パターン認識の課題解決に応用されつつある。しかし、これまでのシステムは限定的な期間を持つ特定のデータセットに依拠して構築されてきた。一方、コンピュータビジョンおよび自然言語処理分野では、大規模データセットで事前学習されたモデルが、複数のタスクに良好に汎化する実績がある。一方で、音声パターン認識において大規模データセットでの事前学習システムに関する研究は依然として限られている。本論文では、大規模なAudioSetデータセット上で学習された事前学習音声ニューラルネットワーク（PANNs）を提案する。これらのPANNsは、他の音声関連タスクへの転移学習に利用される。さまざまな畳み込みニューラルネットワーク（CNN）アーキテクチャを用いてPANNsの性能と計算複雑度を調査した。また、波形とログメルスペクトログラムの両方を入力特徴として用いる「Wavegram-Logmel-CNN」という新規アーキテクチャを提案する。最良のPANNシステムは、AudioSetタグ付けタスクにおいて、従来の最高性能（0.392）を上回る最先端の平均平均精度（mAP）0.439を達成した。さらに、PANNsを6つの音声パターン認識タスクに転移適用し、そのうち複数のタスクで最先端の性能を示した。本研究で開発したPANNsのソースコードおよび事前学習モデルは、以下より公開している：https://github.com/qiuqiangkong/audioset_tagging_cnn。

ソースPDF