Verbesserung der Sound Event Detection in häuslichen Umgebungen unter Verwendung von Sound Separation

Die Durchführung der Schallevent-Detektion auf realen Aufnahmen erfordert oft die Bewältigung überlagerter Ziel-Schallevents sowie nicht-zielgerichteter Geräusche, auch als Störungen oder Rauschen bezeichnet. Bislang wurden diese Herausforderungen hauptsächlich auf Ebene des Klassifikators adressiert. Wir schlagen vor, die Schalltrennung als Vorverarbeitungsschritt für die Schallevent-Detektion einzusetzen. In diesem Beitrag starten wir von einem auf dem Free Universal Sound Separation-Datensatz und der DCASE 2020-Aufgabe 4 basierenden Schalltrennmodell, das als Ausgangspunkt für die Schallevent-Detektion dient. Wir untersuchen verschiedene Ansätze zur Kombination der getrennten Schallquellen mit dem ursprünglichen Mischsignal im Rahmen der Schallevent-Detektion. Zudem untersuchen wir den Einfluss einer Anpassung des Schalltrennmodells an die Daten der Schallevent-Detektion sowohl auf die Leistung der Schalltrennung als auch auf die Genauigkeit der Schallevent-Detektion.