16日前

異種データセット上の音響イベント検出のための訓練

異種データセット上の音響イベント検出のための訓練
要約

記録された音響環境と合成音響環境を含む異種データセットを用いて音イベント検出アルゴリズムを学習させるのは、ラベルの粒度が多様な場合に特に非自明な課題であり、多くの技術的選択を必要とする。これらの技術的選択は、しばしば検証されずに、一つのシステムから別のシステムへと引き継がれる。本研究では、DCASE 2020 タスク4の音イベント検出ベースラインについて、学習に用いるデータの種類、Mean-Teacherのパラメータ、合成音響環境を生成する際の変換手法といった複数の側面に注目し、詳細な分析を実施する。その結果、通常デフォルトとして用いられている一部のパラメータが、最適ではないことが明らかになった。