HyperAIHyperAI

Command Palette

Search for a command to run...

Homophone Unterscheidung durch Multikopf-Visuell-Auditive Gedächtnis für Lippenlesung

Minsu Kim Jeong Hun Yeo Yong Man Ro*

Zusammenfassung

Die Erkennung von Sprache aus stummen Lippenbewegungen, auch als Lippenlesen bekannt, ist eine herausfordernde Aufgabe aufgrund 1) der inhärenten Informationsmangelhaftigkeit von Lippenbewegungen, um die gesprochene Sprache vollständig darzustellen, und 2) der Existenz von Homophonen, die ähnliche Lippenbewegungen aber unterschiedliche Aussprachen haben. In dieser Arbeit versuchen wir, die beiden genannten Herausforderungen im Lippenlesen durch den Vorschlag eines Multi-Head Visual-Audio Memory (MVM) zu mindern. Erstens wird das MVM mit audiovisuellen Datensätzen trainiert und speichert Audio-Darstellungen, indem es die Wechselwirkungen zwischen gepaarten audiovisuellen Darstellungen modelliert. Im Inferenzstadium kann die visuelle Eingabe allein durch die Prüfung der gelernten Wechselwirkungen die gespeicherte Audio-Darstellung aus dem Gedächtnis extrahieren. Somit kann das Lippenlesemodell die mangelhafte visuelle Information durch die extrahierten Audio-Darstellungen ergänzen. Zweitens besteht das MVM aus mehreren Schlüsselgedächtnissen für das Speichern von visuellen Merkmalen und einem Wertgedächtnis für das Speichern von Audiwissen, das entwickelt wurde, um Homophone zu unterscheiden. Mit den mehrfachkopfigen Schlüsselgedächtnissen extrahiert das MVM mögliche Kandidaten-Audio-Merkmale aus dem Gedächtnis, was es dem Lippenlesemodell ermöglicht, zu berücksichtigen, welche Aussprachen durch die Eingabelippenbewegung dargestellt werden können. Dies kann auch als explizite Implementierung der ein-zu-viel-Zuordnung von Visemen zu Phonemen angesehen werden. Des Weiteren wird das MVM auf mehreren zeitlichen Ebenen eingesetzt, um den Kontext bei der Abrufung des Gedächtnisses und zur Unterscheidung von Homophonen zu berücksichtigen. Umfangreiche experimentelle Ergebnisse bestätigen die Effektivität der vorgeschlagenen Methode sowohl im Lippenlesen als auch bei der Unterscheidung von Homophonen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp