HyperAIHyperAI

Command Palette

Search for a command to run...

Conformer-basiertes selbstüberwachtes Lernen für nicht-sprachliche Audio-Aufgaben

Sangeeta Srivastava Yun Wang Andros Tjandra Anurag Kumar Chunxi Liu Kritika Singh Yatharth Saraf

Zusammenfassung

Die Darstellungslernung aus unbeschrifteten Daten ist in der Forschung im Bereich künstliche Intelligenz von großer Bedeutung. Während die selbstüberwachte Sprachdarstellungslernmethode in der Sprachforschungsgemeinschaft weit verbreitet ist, gibt es nur wenige Arbeiten, die die Lernung audio-basierter Darstellungen für nicht-sprachliche Audio-Aufgaben umfassend analysieren. In diesem Paper stellen wir eine selbstüberwachte Methode zur Audio-Darstellungslernung vor und wenden sie auf eine Vielzahl von nachgeschalteten nicht-sprachlichen Audio-Aufgaben an. Wir kombinieren den bekannten wav2vec 2.0-Framework, das sich bei der selbstüberwachten Lernung für Sprachaufgaben bewährt hat, mit parametereffizienten Conformer-Architekturen. Unsere selbstüberwachte Vortrainierung reduziert den Bedarf an beschrifteten Daten um zwei Drittel. Auf dem AudioSet-Benchmark erreichen wir eine mittlere Durchschnittspräzision (mAP) von 0,415, was eine neue state-of-the-art-Leistung auf diesem Datensatz durch reine audio-basierte selbstüberwachte Lernung darstellt. Unsere nachtrainierten Conformer übertreffen oder erreichen zudem die Leistung früherer Systeme, die auf überwachtem Weg vortrainiert wurden, bei mehreren nachgeschalteten Aufgaben. Wir diskutieren ferner wichtige Gestaltungsaspekte sowohl für das Vortrainieren als auch für das Nachtrainieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Conformer-basiertes selbstüberwachtes Lernen für nicht-sprachliche Audio-Aufgaben | Paper | HyperAI