vor 11 Tagen

BYOL-S: Lernen selbstüberwachter Sprachdarstellungen durch Bootstrapping

Gasser Elbanna, Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Karl El Hajal, Milos Cernak

Abstract

Verfahren zur Extraktion von Audio- und Sprachmerkmalen wurden seit den wegweisenden Arbeiten zur Spektralanalyse vor mehreren Jahrzehnten untersucht. Aktuelle Bemühungen zielen darauf ab, allgemein verwendbare Audio-Repräsentationen zu entwickeln. So können tiefe neuronale Netze optimale Embeddings extrahieren, wenn sie auf großen Audio-Datensätzen trainiert werden. Diese Arbeit erweitert bestehende Methoden auf der Basis selbstüberwachtem Lernen durch Bootstrapping, schlägt verschiedene Encoder-Architekturen vor und untersucht die Auswirkungen verschiedener Vortrainings-Datensätze. Abschließend präsentieren wir einen neuartigen Trainingsansatz, um eine hybride Audio-Repräsentation zu entwickeln, die handgefertigte und datengetriebene, gelernte Audio-Merkmale kombiniert. Alle vorgeschlagenen Repräsentationen wurden im Rahmen der HEAR NeurIPS 2021 Herausforderung für die Klassifikation auditiver Szenen und die Detektion von Zeitstempeln evaluiert. Unsere Ergebnisse zeigen, dass das hybride Modell mit einem convolutionalen Transformer als Encoder in den meisten Aufgaben der HEAR-Herausforderung eine überlegene Leistung erzielt.