Conformer-basiertes selbstüberwachtes Lernen für nicht-sprachliche Audio-Aufgaben

Die Darstellungslernung aus unbeschrifteten Daten ist in der Forschung im Bereich künstliche Intelligenz von großer Bedeutung. Während die selbstüberwachte Sprachdarstellungslernmethode in der Sprachforschungsgemeinschaft weit verbreitet ist, gibt es nur wenige Arbeiten, die die Lernung audio-basierter Darstellungen für nicht-sprachliche Audio-Aufgaben umfassend analysieren. In diesem Paper stellen wir eine selbstüberwachte Methode zur Audio-Darstellungslernung vor und wenden sie auf eine Vielzahl von nachgeschalteten nicht-sprachlichen Audio-Aufgaben an. Wir kombinieren den bekannten wav2vec 2.0-Framework, das sich bei der selbstüberwachten Lernung für Sprachaufgaben bewährt hat, mit parametereffizienten Conformer-Architekturen. Unsere selbstüberwachte Vortrainierung reduziert den Bedarf an beschrifteten Daten um zwei Drittel. Auf dem AudioSet-Benchmark erreichen wir eine mittlere Durchschnittspräzision (mAP) von 0,415, was eine neue state-of-the-art-Leistung auf diesem Datensatz durch reine audio-basierte selbstüberwachte Lernung darstellt. Unsere nachtrainierten Conformer übertreffen oder erreichen zudem die Leistung früherer Systeme, die auf überwachtem Weg vortrainiert wurden, bei mehreren nachgeschalteten Aufgaben. Wir diskutieren ferner wichtige Gestaltungsaspekte sowohl für das Vortrainieren als auch für das Nachtrainieren.