Heavily Augmentierte Detektion von Schallereignissen unter Verwendung schwacher Vorhersagen

Die Leistungsfähigkeit von Sound Event Detection (SED)-Systemen ist maßgeblich durch die Schwierigkeit eingeschränkt, große, stark beschriftete Datensätze zu generieren. In dieser Arbeit greifen wir zwei zentrale Ansätze an, um den Mangel an stark beschrifteten Daten zu überwinden. Erstens wenden wir eine umfassende Datenaugmentation auf die Eingabefeatures an. Die eingesetzten Methoden umfassen nicht nur herkömmliche Techniken aus dem Bereich Sprache/Audio, sondern auch unsere vorgeschlagene Methode namens FilterAugment. Zweitens schlagen wir zwei Ansätze vor, um schwache Vorhersagen zur Verbesserung der Leistung schwach beschrifteter SED-Systeme zu nutzen. Als Ergebnis erzielen wir auf dem DESED-Real-Validierungsdatensatz die besten Werte für PSDS1 mit 0,4336 und für PSDS2 mit 0,8161. Diese Arbeit wurde für die DCASE 2021 Task 4 eingereicht und belegt dort den dritten Platz. Der Quellcode ist verfügbar unter: https://github.com/frednam93/FilterAugSED.