HyperAIHyperAI
vor 2 Monaten

EAT: Selbstüberwachtes Vortraining mit effizientem Audio-Transformer

Chen, Wenxi ; Liang, Yuzhe ; Ma, Ziyang ; Zheng, Zhisheng ; Chen, Xie
EAT: Selbstüberwachtes Vortraining mit effizientem Audio-Transformer
Abstract

Das audio-basierte selbstüberwachte Lernen (Self-Supervised Learning, SSL) zur Vorverarbeitung, das darauf abzielt, gute Repräsentationen aus unbeschrifteten Audiodaten zu lernen, hat bemerkenswerte Fortschritte gemacht. Dennoch stellen die erheblichen Rechenanforderungen während der Vorverarbeitung eine bedeutende Hürde für die potenzielle Anwendung und Optimierung von Audio-SSL-Modellen dar. In dieser Arbeit führen wir den Efficient Audio Transformer (EAT) ein, inspiriert durch den Erfolg von data2vec 2.0 im Bildmodus und Audio-MAE im Audiomodus, um die Effektivität und Effizienz im audio-basierten SSL weiter zu verbessern. Der vorgeschlagene EAT überträgt das Bootstrap-Selbstüberwachungs-Trainingsparadigma auf den Audiomodus. Ein neues Utterance-Frame Objective (UFO) wurde entwickelt, um die Modellierungsfähigkeit akustischer Ereignisse zu erhöhen. Darüber hinaus zeigen wir, dass die Maskierungsstrategie bei der Vorverarbeitung im audio-basierten SSL entscheidend ist und mit großen inversen Blockmasken überlegene Audiorepräsentationen erzielt werden können. Die Experimentsergebnisse belegen, dass EAT auf einer Reihe von audio-bezogenen Aufgaben, einschließlich AudioSet (AS-2M, AS-20K), ESC-50 und SPC-2, eine Spitzenleistung (State-of-the-Art, SOTA) erzielt und gleichzeitig eine signifikante Beschleunigung der Vorverarbeitung von bis zu etwa 15-fach im Vergleich zu bestehenden Audio-SSL-Modellen erreicht.