HyperAIHyperAI

Command Palette

Search for a command to run...

BYOL-S: Lernen selbstüberwachter Sprachdarstellungen durch Bootstrapping

Gasser Elbanna Neil Scheidwasser-Clow Mikolaj Kegler Pierre Beckmann Karl El Hajal Milos Cernak

Zusammenfassung

Verfahren zur Extraktion von Audio- und Sprachmerkmalen wurden seit den wegweisenden Arbeiten zur Spektralanalyse vor mehreren Jahrzehnten untersucht. Aktuelle Bemühungen zielen darauf ab, allgemein verwendbare Audio-Repräsentationen zu entwickeln. So können tiefe neuronale Netze optimale Embeddings extrahieren, wenn sie auf großen Audio-Datensätzen trainiert werden. Diese Arbeit erweitert bestehende Methoden auf der Basis selbstüberwachtem Lernen durch Bootstrapping, schlägt verschiedene Encoder-Architekturen vor und untersucht die Auswirkungen verschiedener Vortrainings-Datensätze. Abschließend präsentieren wir einen neuartigen Trainingsansatz, um eine hybride Audio-Repräsentation zu entwickeln, die handgefertigte und datengetriebene, gelernte Audio-Merkmale kombiniert. Alle vorgeschlagenen Repräsentationen wurden im Rahmen der HEAR NeurIPS 2021 Herausforderung für die Klassifikation auditiver Szenen und die Detektion von Zeitstempeln evaluiert. Unsere Ergebnisse zeigen, dass das hybride Modell mit einem convolutionalen Transformer als Encoder in den meisten Aufgaben der HEAR-Herausforderung eine überlegene Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp