HyperAIHyperAI
vor 17 Tagen

JiTTER: Jigsaw Temporal Transformer für die Ereignisrekonstruktion zur selbstüberwachten Detektion von Klangereignissen

Hyeonuk Nam, Yong-Hwa Park
JiTTER: Jigsaw Temporal Transformer für die Ereignisrekonstruktion zur selbstüberwachten Detektion von Klangereignissen
Abstract

Die Sound-Event-Detection (SED) hat erheblich von selbstüberwachten Lernansätzen (SSL) profitiert, insbesondere von dem Masked-Audio-Transformer-for-SED (MAT-SED), der die maskierte Blockvorhersage nutzt, um fehlende Audiosegmente zu rekonstruieren. Allerdings stört die maskierte Blockvorhersage, obwohl sie gut geeignet ist, globale Abhängigkeiten zu erfassen, transiente Soundereignisse und verfügt über keine explizite Berücksichtigung der zeitlichen Reihenfolge, was sie weniger geeignet für die präzise Detektion von Ereignisgrenzen macht. Um diese Einschränkungen zu überwinden, schlagen wir JiTTER (Jigsaw Temporal Transformer for Event Reconstruction) vor, einen SSL-Framework, der darauf abzielt, die zeitliche Modellierung in transformerbasierten SED-Systemen zu verbessern. JiTTER führt eine hierarchische zeitliche Shuffling-Rekonstruktionsstrategie ein, bei der Audiosequenzen sowohl auf Block- als auch auf Frame-Ebene zufällig umgeordnet werden, wodurch das Modell gezwungen wird, die korrekte zeitliche Reihenfolge wiederherzustellen. Diese Vortraining-Zielsetzung fördert die Lernung sowohl globaler Ereignisstrukturen als auch feinster transienter Details und verbessert somit die Fähigkeit des Modells, Ereignisse mit scharfen An- und Abklingzeiten zu erkennen. Zudem integrieren wir während des Block-Shufflings Rausch-Einbringung, was eine subtile Störung ermöglicht, die die Merkmalslernung weiter regularisiert und die Robustheit des Modells erhöht. Experimentelle Ergebnisse auf dem DESED-Datensatz zeigen, dass JiTTER MAT-SED übertrifft und eine Verbesserung von 5,89 % im PSDS erreicht, was die Wirksamkeit expliziter zeitlicher Schlussfolgerung in SSL-basierten SED unterstreicht. Unsere Ergebnisse deuten darauf hin, dass strukturierte zeitliche Rekonstruktionsaufgaben, anstatt einfache maskierte Vorhersage, einen effektiveren Vortraining-Paradigma für die Lernung von Sound-Event-Repräsentationen bieten.