15日前
Conformerを用いた自己教師学習による非音声音声タスク
Sangeeta Srivastava, Yun Wang, Andros Tjandra, Anurag Kumar, Chunxi Liu, Kritika Singh, Yatharth Saraf

要約
ラベルなしデータからの表現学習は、人工知能研究において重要なテーマである。音声分野では自己教師あり音声表現学習が広く採用されているが、非音声音声タスクにおける音声表現学習について包括的な分析を行った研究は極めて少ない。本論文では、自己教師あり音声表現学習手法を提案し、多様な下流タスクである非音声音声処理に適用する。既存の音声タスクにおいて自己教師あり学習で成功を収めた有名なwav2vec 2.0フレームワークと、パラメータ効率の高いConformerアーキテクチャを統合した。本手法による自己教師あり事前学習により、ラベル付きデータの必要量を約2/3まで削減可能である。AudioSetベンチマークにおいて、音声のみを用いた自己教師あり学習で、平均精度(mAP)0.415を達成し、このデータセットにおける新たな最良性能を記録した。さらに、微調整されたConformerモデルは、複数の下流タスクにおいて、従来の教師あり学習で事前学習されたシステムと同等またはそれ以上の性能を達成した。本研究では、事前学習および微調整における重要な設計上の検討事項についても議論する。