
要約
本研究の目的は、新しい大規模言語モデル(LLM)を活用したデータセットである「野生的な家庭環境音イベント検出(WildDESED)」を提示することで、音イベント検出(SED)研究を進展させることです。このデータセットは、元のDESEDデータセットの拡張版として作成され、家庭環境における多様な音響変動と複雑なノイズを反映しています。私たちは、DESEDデータセットの目標音カテゴリに基づいて、LLMを用いて8つの異なる家庭シナリオを生成しました。その後、AudioSetから選択されたノイズの慎重に調整された混合物を使用してシナリオを充実させ、目標音との重複がないようにしました。本研究では、一般的に広く使用されている畳み込みニューラル再帰ネットワーク(CNN-RNN)を用いてWildDESEDデータセットの分析を行い、その難易度の高さを示しています。さらに、カリキュラム学習を適用し、徐々にノイズの複雑さを増加させてモデルの様々なノイズレベルでの汎化能力を向上させました。この手法による結果は、ノイジーエンビロメントにおいて改善が見られることを示しており、WildDESEDデータセットにおける有効性が確認されました。これにより、ノイズに強いSED技術の発展が促進されることが期待されます。