vor 17 Tagen

Multi-Task Voice-activated Framework unter Verwendung von Self-supervised Learning

Shehzeen Hussain, Van Nguyen, Shuhua Zhang, Erik Visser

Abstract

Selbstüberwachte Lernmethoden wie wav2vec 2.0 haben vielversprechende Ergebnisse bei der Lernung von Sprachrepräsentationen aus ungelabelten und untranskribierten Sprachdaten gezeigt, die für die Spracherkennung nützlich sind. Da diese Repräsentationen ohne spezifische Aufgabenüberwachung gelernt werden, können sie ebenfalls für andere sprachgesteuerte Aufgaben wie Sprecheridentifikation, Stichworterkennung und Emotionsklassifikation nützlich sein. In unserer Arbeit schlagen wir einen allgemein verwendbaren Rahmen vor, um ein vortrainiertes wav2vec 2.0-Modell für verschiedene sprachgesteuerte Aufgaben anzupassen. Wir entwickeln nachgeschaltete Netzwerkarchitekturen, die auf den kontextuellen Sprachrepräsentationen von wav2vec 2.0 operieren, um diese Repräsentationen für die Lösung einer gegebenen Aufgabe anzupassen. Schließlich erweitern wir unseren Rahmen, um Mehraufgaben-Lernen durch gemeinsame Optimierung der Netzwerkparameter auf mehreren sprachgesteuerten Aufgaben mit einem geteilten Transformer-Backbone zu ermöglichen. Beide, sowohl unser Einzel- als auch unser Mehraufgaben-Rahmen, erreichen state-of-the-art-Ergebnisse in Benchmark-Aufgaben zur Sprecheridentifikation und Stichworterkennung. Unsere besten Modelle erreichen eine EER von 1,98 % auf dem VoxCeleb1-Testset, wenn sie auf VoxCeleb2 trainiert wurden, und 3,15 % bei Training auf VoxCeleb1, sowie eine Genauigkeit von 98,23 % auf dem Google Speech Commands v1.0-Datensatz zur Stichworterkennung.