Sehr Tiefe Mehrsprachige Faltungsneuronale Netze für LVCSR

Faltungsschichtneuronale Netze (CNNs) sind ein Standardkomponente vieler derzeitigen state-of-the-art Systeme für die automatische Spracherkennung mit großer Wortschatz (LVCSR). Allerdings haben CNNs im Bereich der LVCSR nicht mit den jüngsten Fortschritten in anderen Bereichen Schritt gehalten, in denen tiefere neuronale Netze eine überlegene Leistung erzielen. In dieser Arbeit schlagen wir mehrere architektonische Verbesserungen für CNNs in LVCSR vor. Zunächst führen wir eine sehr tiefe Faltungsnetzarchitektur mit bis zu 14 Gewichtsschichten ein. Vor jeder Pooling-Schicht befinden sich mehrere Faltungsschichten mit kleinen 3x3-Kernen, inspiriert von der VGG-Imagenet-Architektur aus dem Jahr 2014. Anschließend stellen wir mehrsprachige CNNs mit mehreren ungebundenen Schichten vor. Schließlich führen wir skalierbare Eingabe-Features ein, die darauf abzielen, mehr Kontext bei vernachlässigbaren Rechenkosten zu nutzen. Wir bewerten die Verbesserungen zunächst an einer Babel-Aufgabe für die Spracherkennung bei geringen Ressourcen und erreichen eine absolute Verbesserung des Wortfehlerrates (WER) um 5,77 % gegenüber dem Baseline-PLP-DNN durch das Training unseres CNN auf den kombinierten Daten von sechs verschiedenen Sprachen. Danach bewerten wir die sehr tiefen CNNs am Hub5'00 Benchmark (unter Verwendung der 262 Stunden SWB-1 Trainingsdaten) und erreichen einen Wortfehlerrate von 11,8 % nach Kreuzentropie-Training, was eine Verbesserung des WER um 1,4 % (relativ 10,6 %) gegenüber dem bisher besten veröffentlichten CNN-Ergebnis darstellt.