
要約
音声イベント検出(Sound Event Detection: SED)は、しばしばデータ不足の問題に直面する。2023年DCASEチャレンジの課題4における最近のベースラインシステムは、大規模な事前学習済み自己教師学習(Self-Supervised Learning: SelfSL)モデルを活用してこの制約を緩和している。これらの事前学習モデルは、SEDに対してより識別性の高い特徴量を生成するのに寄与している。しかし、チャレンジのベースラインシステムおよび多数の提出物では、事前学習モデルが固定された特徴抽出器として扱われており、その微調整(fine-tuning)についてはほとんど検討されていない。本研究では、事前学習モデルの微調整手法をSEDに対して検討する。まず、我々が新たに提案したSelfSLモデル「ATST-Frame」をSEDシステムに導入する。ATST-Frameは、音声信号のフレームレベル表現を学習することを特に目的として設計されており、複数の下流タスクにおいて最先端(SOTA)の性能を達成している。次に、(ドメイン内)ラベルなしデータとラベル付きSEDデータの両方を用いたATST-Frameの微調整手法を提案する。実験の結果、提案手法は大規模な事前学習ネットワークを微調整する際の過学習問題を克服できることを示した。また、DCASEチャレンジ課題4のデータセットにおいて、本研究のSEDシステムは、PSDS1/PSDS2スコアでそれぞれ0.587/0.812という新たなSOTA結果を達成した。