HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End ASR: von überwachtem zu semi-überwachtem Lernen mit modernen Architekturen

Gabriel Synnaeve Qiantong Xu Jacob Kahn Tatiana Likhomanenko Edouard Grave Vineel Pratap Anuroop Sriram Vitaliy Liptchinsky Ronan Collobert

Zusammenfassung

Wir untersuchen das Pseudolabeling für die semi-supervised Schulung von ResNet-, Time-Depth-separable ConvNet- und Transformer-Architekturen für die Spracherkennung, jeweils mit CTC- oder Seq2Seq-Verlustfunktionen. Wir führen Experimente auf dem Standard-Datensatz LibriSpeech durch und nutzen zusätzliche unlabeled Daten aus LibriVox mittels Pseudolabeling. Wir zeigen, dass obwohl Transformer-basierte akustische Modelle allein mit überwachten Daten eine überlegene Leistung erzielen, die semi-supervised Lernstrategie alle Architekturen und Verlustfunktionen verbessert und einen Großteil der Leistungsunterschiede zwischen ihnen schließt. Auf diese Weise erreichen wir einen neuen SOTA (State-of-the-Art) für end-to-end akustische Modelle, die mit einem externen Sprachmodell decodiert werden, im klassischen überwachten Lernansatz, sowie einen neuen absoluten SOTA bei semi-supervised Training. Schließlich untersuchen wir den Einfluss unterschiedlicher Mengen an unlabeled Audio, schlagen mehrere Methoden zur Bewertung der Eigenschaften von unlabeled Audio vor, die die akustische Modellierung verbessern, und zeigen, dass akustische Modelle, die mit mehr Audio trainiert werden, weniger auf externe Sprachmodelle angewiesen sind.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp