HyperAIHyperAI

Command Palette

Search for a command to run...

EAT: Selbstüberwachtes Vortraining mit effizientem Audio-Transformer

Wenxi Chen Yuzhe Liang Ziyang Ma Zhisheng Zheng Xie Chen *

Zusammenfassung

Das audio-basierte selbstüberwachte Lernen (Self-Supervised Learning, SSL) zur Vorverarbeitung, das darauf abzielt, gute Repräsentationen aus unbeschrifteten Audiodaten zu lernen, hat bemerkenswerte Fortschritte gemacht. Dennoch stellen die erheblichen Rechenanforderungen während der Vorverarbeitung eine bedeutende Hürde für die potenzielle Anwendung und Optimierung von Audio-SSL-Modellen dar. In dieser Arbeit führen wir den Efficient Audio Transformer (EAT) ein, inspiriert durch den Erfolg von data2vec 2.0 im Bildmodus und Audio-MAE im Audiomodus, um die Effektivität und Effizienz im audio-basierten SSL weiter zu verbessern. Der vorgeschlagene EAT überträgt das Bootstrap-Selbstüberwachungs-Trainingsparadigma auf den Audiomodus. Ein neues Utterance-Frame Objective (UFO) wurde entwickelt, um die Modellierungsfähigkeit akustischer Ereignisse zu erhöhen. Darüber hinaus zeigen wir, dass die Maskierungsstrategie bei der Vorverarbeitung im audio-basierten SSL entscheidend ist und mit großen inversen Blockmasken überlegene Audiorepräsentationen erzielt werden können. Die Experimentsergebnisse belegen, dass EAT auf einer Reihe von audio-bezogenen Aufgaben, einschließlich AudioSet (AS-2M, AS-20K), ESC-50 und SPC-2, eine Spitzenleistung (State-of-the-Art, SOTA) erzielt und gleichzeitig eine signifikante Beschleunigung der Vorverarbeitung von bis zu etwa 15-fach im Vergleich zu bestehenden Audio-SSL-Modellen erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
EAT: Selbstüberwachtes Vortraining mit effizientem Audio-Transformer | Paper | HyperAI