HyperAIHyperAI

Command Palette

Search for a command to run...

Selbstüberwachter Audio-Lehrer-Schüler-Transformer für Clip- und Frame-Level-Aufgaben

Xian Li Nian Shao Xiaofei Li*

Zusammenfassung

Das selbstüberwachte Lernen (Self-Supervised Learning, SSL) ist als populärer Ansatz für das Erlernen von Audiodarstellungen hervorgetreten. Ein Ziel des selbstüberwachten Vortrainings von Audio ist die Übertragung von Wissen auf nachgelagerte Audoaufgaben, die im Allgemeinen clipbasierte und rahmenbasierte Aufgaben umfassen. Während rahmenbasierte Aufgaben für eine feingranulare Verständnis von akustischen Szenen/Ereignissen wichtig sind, konzentrieren sich frühere Studien hauptsächlich auf die Bewertung anhand clipbasierter nachgelagerter Aufgaben. Um sowohl clipbasierte als auch rahmenbasierte Aufgaben zu bewältigen, schlägt dieser Artikel den Audio Teacher-Student Transformer (ATST) vor, mit einer clipbasierten Version (ATST-Clip genannt) und einer rahmenbasierten Version (ATST-Frame genannt), die jeweils clipbasierte und rahmenbasierte Darstellungen erlernen sollen. Beide Methoden verwenden einen Transformer-Encoder und ein Lehrer-Schüler-Trainingsverfahren. Wir haben sorgfältig Strategien zur Erstellung der Ansichten für ATST-Clip und ATST-Frame entwickelt. Insbesondere verwendet ATST-Clip segmentweise Datenverstärkungen, während ATST-Frame rahmenweise Datenverstärkungen und Maskierung integriert. Experimentelle Ergebnisse zeigen, dass unser ATST-Frame Modell auf den meisten clipbasierenden und rahmenbasierenden nachgelagerten Aufgaben Spitzenleistungen (state-of-the-art, SOTA) erzielt. Besonders bei der rahmenbasierten Erkennung von Schallereignissen übertrifft es andere Modelle deutlich. Zudem kann die Leistung durch Kombination der beiden Modelle mittels Wissensdistillierung weiter verbessert werden. Unser Code ist online verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Selbstüberwachter Audio-Lehrer-Schüler-Transformer für Clip- und Frame-Level-Aufgaben | Paper | HyperAI