HyperAIHyperAI
vor 9 Tagen

LCANet: End-to-End Lipreading mit kaskadierter Aufmerksamkeit-CTC

{Nick Cassimatis, Xiaolong Wang, Kai Xu, Dawei Li}
LCANet: End-to-End Lipreading mit kaskadierter Aufmerksamkeit-CTC
Abstract

Maschinelles Lippenlesen ist eine spezielle Form der automatischen Spracherkennung (ASR), bei der menschliche Sprache visuell anhand der Bewegungen relevanter Gesichtsregionen – einschließlich Lippen, Gesicht und Zunge – interpretiert und transkribiert wird. In jüngster Zeit haben tief neuronalnetz-basierte Methoden für das Lippenlesen großes Potenzial gezeigt und in einigen Benchmark-Datensätzen bereits die Genauigkeit erfahrener menschlicher Lippenleser übertroffen. Dennoch ist das Lippenlesen weiterhin nicht vollständig gelöst, und bestehende Ansätze weisen auf realen, unstrukturierten Daten („wild data“) oft hohe Fehlerraten auf. In diesem Paper stellen wir LCANet vor, ein end-to-end tiefes neuronales Netzwerk-basiertes System für das Lippenlesen. LCANet kodiert Eingabevideos mithilfe eines gestapelten 3D-Convolutional Neural Network (CNN), einer Highway-Netzwerk- und einer bidirektionalen GRU-Netzwerk-Struktur. Der Encoder erfasst effektiv sowohl kurzfristige als auch langfristige räumlich-zeitliche Informationen. Vor allem jedoch integriert LCANet einen kaskadierten Attention-CTC-Decoder, um Ausgabetexte zu generieren. Durch die Kaskadierung von CTC und Attention wird der Mangel der bedingten Unabhängigkeit in den versteckten neuronalen Schichten von CTC teilweise ausgeglichen, was zu einer signifikanten Leistungssteigerung sowie schnellerer Konvergenz führt. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene System auf der GRID-Korpus-Datenbank einen CER von 1,3 % und einen WER von 3,0 % erreicht, was einer Verbesserung um 12,3 % gegenüber den derzeit besten Methoden entspricht.