LLM und textbasierte Trennung zur robusten Schallereigniserkennung unter Rauscheinfluss nutzen

Die Erkennung von Schallereignissen (SED) ist in geräuscharmen Umgebungen herausfordernd, da überlappende Schallquellen die Zielereignisse verdecken können. Die Sprachabfrage-basierte Audiosourcen-Trennung (LASS) hat das Ziel, die Ziel-Schallereignisse aus einem geräuschreichen Ausschnitt zu isolieren. Dieser Ansatz kann jedoch scheitern, wenn das genaue Zielgeräusch unbekannt ist, insbesondere in geräuschreichen Testdatensätzen, was zu einer Leistungsverschlechterung führt. Um dieses Problem anzugehen, nutzen wir die Fähigkeiten großer Sprachmodelle (LLMs), um akustische Daten zu analysieren und zusammenzufassen. Durch die Verwendung von LLMs zur Identifizierung und Auswahl spezifischer Geräuscharten implementieren wir eine Methode zur Geräuschverstärkung für ein geräuschrobustes Feinjustierungstraining. Das feinjustierte Modell wird verwendet, um Ereignisvorhersagen auf Clip-Ebene als Textabfragen für das LASS-Modell zu generieren. Unsere Studien zeigen, dass die vorgeschlagene Methode die SED-Leistung in geräuscharmen Umgebungen verbessert. Diese Arbeit stellt eine frühe Anwendung von LLMs im Bereich der geräuschrobusten SED dar und deutet auf eine vielversprechende Richtung hin, um überlappende Ereignisse in der SED zu behandeln. Der Quellcode und vortrainierte Modelle sind unter https://github.com/apple-yinhan/Noise-robust-SED verfügbar.