HyperAIHyperAI
vor 17 Tagen

Feinabstimmen des vortrainierten ATST-Modells für die Erkennung von Schallereignissen

Nian Shao, Xian Li, Xiaofei Li
Feinabstimmen des vortrainierten ATST-Modells für die Erkennung von Schallereignissen
Abstract

Die Sound Event Detection (SED) leidet häufig unter dem Problem des Datenausfalls. Der aktuelle Baseline-System im DCASE2023 Challenge Task 4 nutzt große vortrainierte selbstüberwachte Lernmodelle (SelfSL), um diese Einschränkung zu mildern, wobei die vortrainierten Modelle dazu beitragen, diskriminativere Merkmale für die SED zu erzeugen. In der Challenge-Baseline und den meisten Teilnahmen wird jedoch das vortrainierte Modell als fixierter Merkmalsextraktor betrachtet, und eine Feinjustierung der vortrainierten Modelle wurde bisher kaum untersucht. In dieser Arbeit untersuchen wir Methoden zur Feinjustierung vortrainierter Modelle für die SED. Zunächst führen wir ATST-Frame, unser neu vorgeschlagenes SelfSL-Modell, in das SED-System ein. ATST-Frame wurde speziell für die Lernung frame-basierter Darstellungen von Audiosignalen entworfen und erzielte state-of-the-art (SOTA)-Ergebnisse in einer Reihe von nachgeschalteten Aufgaben. Anschließend schlagen wir eine Feinjustierungsstrategie für ATST-Frame vor, die sowohl unbeschriftete als auch beschriftete SED-Daten aus dem gleichen Domänenbereich nutzt. Unsere Experimente zeigen, dass die vorgeschlagene Methode das Überanpassungsproblem bei der Feinjustierung großer vortrainierter Netzwerke überwindet, und unser SED-System erreicht neue SOTA-Ergebnisse mit 0,587/0,812 PSDS1/PSDS2-Scores auf dem DCASE-Challenge-Task-4-Datensatz.

Feinabstimmen des vortrainierten ATST-Modells für die Erkennung von Schallereignissen | Neueste Forschungsarbeiten | HyperAI