vor 2 Monaten

Erstellung von DNN-Akustikmodellen für die Spracherkennung mit großem Wortschatz

Andrew L. Maas; Peng Qi; Ziang Xie; Awni Y. Hannun; Christopher T. Lengerich; Daniel Jurafsky; Andrew Y. Ng

Abstract

Tiefe neuronale Netze (DNNs) sind heute ein zentrales Element fast aller modernen Spracherkennungssysteme. Die Entwicklung von neuronalen Netzwerken für akustische Modelle erfordert mehrere Gestaltungsoptionen, darunter die Netzwerkarchitektur, die Größe und die Trainingsverlustfunktion. In dieser Arbeit wird eine empirische Untersuchung durchgeführt, um zu klären, welche Aspekte der DNN-Akustikmodellgestaltung am wichtigsten für die Leistung von Spracherkennungssystemen sind. Wir berichten über die Leistung von DNN-Klassifikatoren und den endgültigen Wortsfehlerraten des Spracherkenners und vergleichen DNNs unter Verwendung verschiedener Metriken, um Faktoren zu quantifizieren, die Unterschiede in der Aufgabenleistung beeinflussen. Unser erster Satz von Experimenten verwendet das Standard-Switchboard-Benchmark-Korpus, das etwa 300 Stunden konversationsähnlicher Telefonate enthält. Wir vergleichen Standard-DNNs mit Faltungsnetzen und präsentieren die ersten Experimente zur Verwendung lokal verbundener, nicht gebundener Neuronaler Netze (locally-connected, untied neural networks) für Akustikmodelle. Zusätzlich bauen wir Systeme auf einem Korpus von 2.100 Stunden Trainingsdaten auf, indem wir das Switchboard- und das Fisher-Korpus kombinieren. Dieses größere Korpus ermöglicht es uns, die Leistung großer DNN-Modelle – mit bis zu zehnmal mehr Parametern als jene, die in typischen Spracherkennungssystemen verwendet werden – gründlicher zu untersuchen. Unsere Ergebnisse deuten darauf hin, dass eine relativ einfache DNN-Architektur und Optimierungstechnik starke Ergebnisse liefert. Diese Erkenntnisse sowie frühere Arbeiten helfen dabei, eine Reihe bester Praktiken für die Entwicklung von DNN-hybriden Spracherkennungssystemen mit Maximum-Likelihood-Training festzulegen. Unsere Experimente zur Optimierung von DNNs dienen zudem als Fallstudie für das Training von DNNs mit diskriminativen Verlustfunktionen für sprachliche Aufgaben sowie allgemein für DNN-Klassifikatoren.