Quaternion Convolutionale Neuronale Netze für die automatische Spracherkennung von Anfang bis Ende

Kürzlich haben das connectionistische temporale Klassifikationsmodell (CTC) in Verbindung mit rekurrenten (RNN) oder konvolutionellen Neuronalen Netzen (CNN) es erleichtert, Spracherkennungssysteme in einem end-to-end-Prozess zu trainieren. In reellen Modellen werden jedoch zeitliche Komponenten wie Mel-Filterbank-Energien und daraus abgeleitete cepstrale Koeffizienten zusammen mit ihren ersten und zweiten Ordnungsableitungen als einzelne Elemente verarbeitet, während eine natürliche Alternative darin besteht, solche Komponenten als zusammengesetzte Entitäten zu verarbeiten. Wir schlagen vor, diese Elemente in Form von Quaternionen zu gruppieren und diese Quaternionen unter Verwendung der etablierten Quaternionenalgebra zu verarbeiten. Quaternionenzahlen und Quaternionenneuronale Netze haben ihre Effizienz bei der Verarbeitung mehrdimensionaler Eingaben als Einheiten, beim Kodieren interner Abhängigkeiten und beim Lösen vieler Aufgaben mit weniger Lernparametern als reelle Modelle gezeigt. Dieser Artikel schlägt vor, mehrere Merkmalsansichten in einem quaternionwertigen konvolutionellen Neuronalen Netz (QCNN) zu integrieren, um sie für die sequenz-zu-sequenz-Zuordnung mit dem CTC-Modell zu verwenden. Versprechende Ergebnisse wurden bei Phonemerkenntnisexperimenten mit dem TIMIT-Korpus unter Verwendung einfacher QCNNs berichtet. Genauer gesagt erreichen QCNNs eine geringere Phonemfehlerrate (PER) mit weniger Lernparametern als ein vergleichbares Modell auf Basis reeller CNNs.