vor 2 Monaten

Selbstüberwachter Audio-Lehrer-Schüler-Transformer für Clip- und Frame-Level-Aufgaben

Li, Xian ; Shao, Nian ; Li, Xiaofei

Abstract

Das selbstüberwachte Lernen (Self-Supervised Learning, SSL) ist als populärer Ansatz für das Erlernen von Audiodarstellungen hervorgetreten. Ein Ziel des selbstüberwachten Vortrainings von Audio ist die Übertragung von Wissen auf nachgelagerte Audoaufgaben, die im Allgemeinen clipbasierte und rahmenbasierte Aufgaben umfassen. Während rahmenbasierte Aufgaben für eine feingranulare Verständnis von akustischen Szenen/Ereignissen wichtig sind, konzentrieren sich frühere Studien hauptsächlich auf die Bewertung anhand clipbasierter nachgelagerter Aufgaben. Um sowohl clipbasierte als auch rahmenbasierte Aufgaben zu bewältigen, schlägt dieser Artikel den Audio Teacher-Student Transformer (ATST) vor, mit einer clipbasierten Version (ATST-Clip genannt) und einer rahmenbasierten Version (ATST-Frame genannt), die jeweils clipbasierte und rahmenbasierte Darstellungen erlernen sollen. Beide Methoden verwenden einen Transformer-Encoder und ein Lehrer-Schüler-Trainingsverfahren. Wir haben sorgfältig Strategien zur Erstellung der Ansichten für ATST-Clip und ATST-Frame entwickelt. Insbesondere verwendet ATST-Clip segmentweise Datenverstärkungen, während ATST-Frame rahmenweise Datenverstärkungen und Maskierung integriert. Experimentelle Ergebnisse zeigen, dass unser ATST-Frame Modell auf den meisten clipbasierenden und rahmenbasierenden nachgelagerten Aufgaben Spitzenleistungen (state-of-the-art, SOTA) erzielt. Besonders bei der rahmenbasierten Erkennung von Schallereignissen übertrifft es andere Modelle deutlich. Zudem kann die Leistung durch Kombination der beiden Modelle mittels Wissensdistillierung weiter verbessert werden. Unser Code ist online verfügbar.