CRF-basierte einstufige akustische Modellierung mit CTC-Topologie

In diesem Paper entwickeln wir eine bedingte zufällige Feld-(CRF)-basierte Einphasen-(SS)-akustische Modellierung mit einer durch Connectionist Temporal Classification (CTC) inspirierten Zustandsstruktur, die kurz als CTC-CRF bezeichnet wird.CTC-CRF ist konzeptionell einfach und implementiert grundsätzlich eine CRF-Schicht oberhalb von durch das untere neuronale Netzwerk generierten Merkmalen unter Verwendung der speziellen Zustandsstruktur.Ähnlich wie SS-LF-MMI (lattice-free maximum-mutual-information) kann CTC-CRF von Grund auf (flat-start) trainiert werden, wodurch die GMM-HMM-Vortraining und Baumkonstruktion entfallen.Evaluationsexperimente werden auf den Datensätzen WSJ, Switchboard und Librispeech durchgeführt.In direkten Vergleichen zeigt das CTC-CRF-Modell, das einfache bidirektionale LSTMs verwendet, konsistent bessere Ergebnisse als das starke SS-LF-MMI-Modell – sowohl auf allen drei Benchmark-Datensätzen als auch in beiden Fällen von Mono-Phones und Mono-Chars.Zusätzlich vermeidet CTC-CRF einige ad-hoc-Operationen, die bei SS-LF-MMI erforderlich sind.