Buchstabenbasierte Spracherkennung mit Gated ConvNets

In der jüngsten Literatur beziehen sich „End-to-End“-Sprachsysteme oft auf buchstabenbasierte akustische Modelle, die sequenzbasiert trainiert werden, entweder durch ein rekurrentes Modell oder durch einen strukturierten Ausgabe-Lernansatz (wie z.B. CTC). Im Gegensatz zu traditionellen phon- (oder senone-) basierten Ansätzen vereinfachen diese „End-to-End“-Ansätze das Modellieren von Wortaussprachen und erfordern während des Trainings keinen Schritt der „gezwungenen Anpassung“. Phon-basierte Ansätze bleiben jedoch bei klassischen Benchmarks der Stand der Technik. In dieser Arbeit schlagen wir ein buchstabenbasiertes Spracherkennungssystem vor, das eine ConvNet-Akustikmodellierung nutzt. Wesentliche Bestandteile des ConvNets sind Gated Linear Units und hohe Dropout-Raten. Das ConvNet wird trainiert, Audisequenzen auf ihre entsprechenden Buchstabentranskriptionen abzubilden, entweder durch den klassischen CTC-Ansatz oder durch eine kürzlich entwickelte Variante namens ASG. Verknüpft mit einem einfachen Decoder zur Inferenz erreicht unser System die Leistung der besten existierenden buchstabenbasierten Systeme auf WSJ (in Bezug auf die Worte-Fehler-Rate) und zeigt nahezu den Stand der Technik auf LibriSpeech.