
要約
現実世界の音声記録において音声イベント検出(Sound Event Detection, SED)を実行する際には、重複するターゲット音声イベントや非ターゲット音声(干渉音やノイズと呼ばれる)の存在を考慮する必要がある。これまでこの問題は主に分類器レベルで対処されてきた。本研究では、音声イベント検出の前処理として音声分離(Sound Separation)を活用する手法を提案する。本論文では、Free Universal Sound SeparationデータセットおよびDCASE 2020タスク4の音声イベント検出ベースラインで学習された音声分離モデルを出発点とし、分離された音声源と元の混合音声を音声イベント検出に統合するためのさまざまな手法を検討する。さらに、音声イベント検出データに適応させた音声分離モデルが、音声分離性能および音声イベント検出性能に及ぼす影響についても調査する。