HyperAIHyperAI
vor 2 Monaten

Homophone Unterscheidung durch Multikopf-Visuell-Auditive Gedächtnis für Lippenlesung

Kim, Minsu ; Yeo, Jeong Hun ; Ro, Yong Man
Homophone Unterscheidung durch Multikopf-Visuell-Auditive Gedächtnis für Lippenlesung
Abstract

Die Erkennung von Sprache aus stummen Lippenbewegungen, auch als Lippenlesen bekannt, ist eine herausfordernde Aufgabe aufgrund 1) der inhärenten Informationsmangelhaftigkeit von Lippenbewegungen, um die gesprochene Sprache vollständig darzustellen, und 2) der Existenz von Homophonen, die ähnliche Lippenbewegungen aber unterschiedliche Aussprachen haben. In dieser Arbeit versuchen wir, die beiden genannten Herausforderungen im Lippenlesen durch den Vorschlag eines Multi-Head Visual-Audio Memory (MVM) zu mindern. Erstens wird das MVM mit audiovisuellen Datensätzen trainiert und speichert Audio-Darstellungen, indem es die Wechselwirkungen zwischen gepaarten audiovisuellen Darstellungen modelliert. Im Inferenzstadium kann die visuelle Eingabe allein durch die Prüfung der gelernten Wechselwirkungen die gespeicherte Audio-Darstellung aus dem Gedächtnis extrahieren. Somit kann das Lippenlesemodell die mangelhafte visuelle Information durch die extrahierten Audio-Darstellungen ergänzen. Zweitens besteht das MVM aus mehreren Schlüsselgedächtnissen für das Speichern von visuellen Merkmalen und einem Wertgedächtnis für das Speichern von Audiwissen, das entwickelt wurde, um Homophone zu unterscheiden. Mit den mehrfachkopfigen Schlüsselgedächtnissen extrahiert das MVM mögliche Kandidaten-Audio-Merkmale aus dem Gedächtnis, was es dem Lippenlesemodell ermöglicht, zu berücksichtigen, welche Aussprachen durch die Eingabelippenbewegung dargestellt werden können. Dies kann auch als explizite Implementierung der ein-zu-viel-Zuordnung von Visemen zu Phonemen angesehen werden. Des Weiteren wird das MVM auf mehreren zeitlichen Ebenen eingesetzt, um den Kontext bei der Abrufung des Gedächtnisses und zur Unterscheidung von Homophonen zu berücksichtigen. Umfangreiche experimentelle Ergebnisse bestätigen die Effektivität der vorgeschlagenen Methode sowohl im Lippenlesen als auch bei der Unterscheidung von Homophonen.