ContextNet: Verbesserung von Convolutional Neural Networks für die automatische Spracherkennung durch globale Kontextinformationen

Convolutionale neuronale Netze (CNN) haben vielversprechende Ergebnisse für end-to-end-Spracherkennung gezeigt, sind jedoch weiterhin hinter anderen state-of-the-art-Methoden hinsichtlich der Leistungsfähigkeit zurückgeblieben. In diesem Paper untersuchen wir, wie dieser Leistungsunterschied geschlossen und darüber hinausgegangen werden kann, indem wir eine neuartige CNN-RNN-Transducer-Architektur vorstellen, die wir ContextNet nennen. ContextNet verfügt über einen vollständig convolutionalen Encoder, der globale Kontextinformationen in die Faltungsoperationen integriert, indem Squeeze-and-Excitation-Module hinzugefügt werden. Darüber hinaus schlagen wir eine einfache Skalierungsmethode vor, die die Breite von ContextNet anpasst und ein gutes Verhältnis zwischen Rechenaufwand und Genauigkeit erzielt. Wir zeigen, dass ContextNet auf dem weit verbreiteten LibriSpeech-Benchmark eine Wortfehlerquote (WER) von 2,1 %/4,6 % erreicht, ohne externe Sprachmodelle (LM), 1,9 %/4,1 % mit LM und 2,9 %/7,0 % bei lediglich 10 M Parametern auf den Testsets „clean“ und „noisy“ von LibriSpeech. Dies stellt eine Verbesserung gegenüber dem bisher besten veröffentlichten System dar, das 2,0 %/4,6 % mit LM und 3,9 %/11,3 % bei 20 M Parametern erreichte. Die Überlegenheit des vorgeschlagenen ContextNet-Modells wird zudem an einem viel größeren internen Datensatz bestätigt.