HyperAIHyperAI
vor 9 Tagen

BigSSL: Untersuchung der Grenzen des großskaligen semi-supervised Lernens für die automatische Spracherkennung

Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, Yonghui Wu
BigSSL: Untersuchung der Grenzen des großskaligen semi-supervised Lernens für die automatische Spracherkennung
Abstract

Wir fassen die Ergebnisse einer Vielzahl von Ansätzen zusammen, die große automatische Spracherkennungs-(ASR-)Modelle nutzen, die mit großen, vielfältigen, unbeschrifteten Datensätzen vortrainiert wurden, die etwa eine Million Stunden Audio umfassen. Wir stellen fest, dass die Kombination aus Vortrainieren, Selbsttrainieren und Skalierung der Modellgröße die Daten-Effizienz erheblich steigert, selbst bei äußerst großen Aufgaben mit Zehntausenden Stunden beschrifteter Daten. Insbesondere erreichen wir auf einer ASR-Aufgabe mit 34.000 Stunden beschrifteter Daten mit dem Feintuning eines vortrainierten Conformer-Modells mit 8 Milliarden Parametern die Zustand der Kunst (SoTA)-Leistung mit nur 3 % des Trainingsdatensatzes und übertreffen die SoTA erheblich, wenn der gesamte Trainingsdatensatz verwendet wird. Zudem berichten wir über universelle Vorteile, die sich aus der Verwendung großer vortrainierter und selbsttrainierter Modelle für eine große Anzahl von Downstream-Aufgaben ergeben, die eine breite Palette an Sprachdomänen abdecken und sich über mehrere Größenordnungen in den Datensatzgrößen erstrecken, einschließlich der Erreichung von SoTA-Leistungen auf vielen öffentlichen Benchmarks. Darüber hinaus nutzen wir die gelernten Darstellungen vortrainierter Netzwerke, um SoTA-Ergebnisse auch bei nicht-ASR-Aufgaben zu erzielen.