HyperAIHyperAI
vor 11 Tagen

Teilbasiertes Lippenlesen für audiovisuelle Spracherkennung

{Bing Yang, Hong Liu, Ziling Miao}
Abstract

Lippenlesen ist eine wichtige Komponente der audio-visuellen Spracherkennung. Allerdings werden die Lippen im herkömmlichen Lippenlesen meist als Ganzes modelliert, was darüber hinweggeht, dass jeweils unterschiedliche Lippenanteile verschiedene Merkmale des Mundes betonen und dass ein Gesamtmodell die einzelnen Teile nicht optimal erfassen kann. Zudem variieren Merkmale, die auf den gesamten Lippen basieren, stark zwischen verschiedenen Sprechern, was dazu führt, dass Trainingsdatensätze möglichst viele Sprecher enthalten müssen. In diesem Artikel wird ein teilspezifisches Lippenleseverfahren (Part-based Lipreading, PBL) vorgestellt, um die Diskrepanz zwischen einem Gesamtmodell der Lippen und den einzelnen Lippenanteilen sowie die übermäßige Abhängigkeit der Modelle von den Sprechern im Trainingsset zu überwinden. PBL modelliert die Lippen teilweise und führt die Vorhersage gemeinsam durch. Es wendet eine gleichmäßige Partitionierungsstrategie auf konvolutionale Merkmale an und generiert mehrere Teilbereichs-Unterergebnisse, die zur endgültigen Vorhersage kombiniert werden. Experimente wurden auf einem großen öffentlich verfügbaren Datensatz (LRW) sowie auf einer Teilmenge davon (p-LRW, 65 Wörter) durchgeführt, um progressive Anweisungen in der Arbeitsumgebung von Robotern nachzuahmen. Die Wortgenauigkeit von PBL erreicht 82,8 % auf LRW und 88,9 % auf p-LRW. Schließlich wurde ein end-to-end audio-visuelles Spracherkennungssystem basierend auf PBL aufgebaut, das eine Wortgenauigkeit von 98,3 % auf LRW erzielt.

Teilbasiertes Lippenlesen für audiovisuelle Spracherkennung | Neueste Forschungsarbeiten | HyperAI