HyperAIHyperAI
vor 2 Monaten

Deep Speech 2: End-to-End Spracherkennung in Englisch und Mandarin

Dario Amodei; Rishita Anubhai; Eric Battenberg; Carl Case; Jared Casper; Bryan Catanzaro; Jingdong Chen; Mike Chrzanowski; Adam Coates; Greg Diamos; Erich Elsen; Jesse Engel; Linxi Fan; Christopher Fougner; Tony Han; Awni Hannun; Billy Jun; Patrick LeGresley; Libby Lin; Sharan Narang; Andrew Ng; Sherjil Ozair; Ryan Prenger; Jonathan Raiman; Sanjeev Satheesh; David Seetapun; Shubho Sengupta; Yi Wang; Zhiqian Wang; Chong Wang; Bo Xiao; Dani Yogatama; Jun Zhan; Zhenyao Zhu
Deep Speech 2: End-to-End Spracherkennung in Englisch und Mandarin
Abstract

Wir zeigen, dass ein End-to-End-Tiefenlernansatz verwendet werden kann, um sowohl englische als auch mandarinisch-chinesische Sprache – zwei grundverschiedene Sprachen – zu erkennen. Da er die gesamten Pipelines von manuell entwickelten Komponenten durch neuronale Netze ersetzt, ermöglicht das End-to-End-Lernen uns, eine vielfältige Vielfalt an Sprachsignalen zu verarbeiten, einschließlich geräuschreicher Umgebungen, Akzenten und verschiedenen Sprachen. Ein wesentlicher Bestandteil unseres Ansatzes ist die Anwendung von Hochleistungsrechnertechniken (HPC), was zu einer siebenfachen Beschleunigung im Vergleich zu unserem früheren System führt. Dank dieser Effizienz können Experimente, die früher Wochen dauerten, nun in Tagen durchgeführt werden. Dies ermöglicht es uns, schneller zu iterieren und überlegene Architekturen und Algorithmen zu identifizieren. Als Ergebnis sind wir in mehreren Fällen mit der Transkription menschlicher Mitarbeiter vergleichbar, wenn wir auf Standarddatensätzen getestet werden. Schließlich zeigen wir mithilfe einer Technik namens Batch Dispatch mit GPUs im Rechenzentrum, dass unser System kostengünstig in einem Online-Szenario bereitgestellt werden kann und bei der Bedienung großer Nutzergruppen niedrige Latenzwerte liefert.

Deep Speech 2: End-to-End Spracherkennung in Englisch und Mandarin | Neueste Forschungsarbeiten | HyperAI