HyperAIHyperAI

Command Palette

Search for a command to run...

JiTTER: Jigsaw Temporal Transformer für die Ereignisrekonstruktion zur selbstüberwachten Detektion von Klangereignissen

Hyeonuk Nam Yong-Hwa Park

Zusammenfassung

Die Sound-Event-Detection (SED) hat erheblich von selbstüberwachten Lernansätzen (SSL) profitiert, insbesondere von dem Masked-Audio-Transformer-for-SED (MAT-SED), der die maskierte Blockvorhersage nutzt, um fehlende Audiosegmente zu rekonstruieren. Allerdings stört die maskierte Blockvorhersage, obwohl sie gut geeignet ist, globale Abhängigkeiten zu erfassen, transiente Soundereignisse und verfügt über keine explizite Berücksichtigung der zeitlichen Reihenfolge, was sie weniger geeignet für die präzise Detektion von Ereignisgrenzen macht. Um diese Einschränkungen zu überwinden, schlagen wir JiTTER (Jigsaw Temporal Transformer for Event Reconstruction) vor, einen SSL-Framework, der darauf abzielt, die zeitliche Modellierung in transformerbasierten SED-Systemen zu verbessern. JiTTER führt eine hierarchische zeitliche Shuffling-Rekonstruktionsstrategie ein, bei der Audiosequenzen sowohl auf Block- als auch auf Frame-Ebene zufällig umgeordnet werden, wodurch das Modell gezwungen wird, die korrekte zeitliche Reihenfolge wiederherzustellen. Diese Vortraining-Zielsetzung fördert die Lernung sowohl globaler Ereignisstrukturen als auch feinster transienter Details und verbessert somit die Fähigkeit des Modells, Ereignisse mit scharfen An- und Abklingzeiten zu erkennen. Zudem integrieren wir während des Block-Shufflings Rausch-Einbringung, was eine subtile Störung ermöglicht, die die Merkmalslernung weiter regularisiert und die Robustheit des Modells erhöht. Experimentelle Ergebnisse auf dem DESED-Datensatz zeigen, dass JiTTER MAT-SED übertrifft und eine Verbesserung von 5,89 % im PSDS erreicht, was die Wirksamkeit expliziter zeitlicher Schlussfolgerung in SSL-basierten SED unterstreicht. Unsere Ergebnisse deuten darauf hin, dass strukturierte zeitliche Rekonstruktionsaufgaben, anstatt einfache maskierte Vorhersage, einen effektiveren Vortraining-Paradigma für die Lernung von Sound-Event-Repräsentationen bieten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
JiTTER: Jigsaw Temporal Transformer für die Ereignisrekonstruktion zur selbstüberwachten Detektion von Klangereignissen | Paper | HyperAI