HyperAIHyperAI

Command Palette

Search for a command to run...

Lip Graph-assistierte audiovisuelle Spracherkennung mittels bidirektionaler synchroner Fusion

Bing Yang Zhan Chen Hong Liu

Zusammenfassung

Aktuelle Studien haben gezeigt, dass die Extraktion repräsentativer visueller Merkmale sowie die effiziente Fusion von Audio- und Visualsequenzen entscheidend für die audio-visuelle Spracherkennung (AVSR) sind, dies stellt jedoch weiterhin eine Herausforderung dar. Um diesem Problem zu begegnen, schlagen wir eine AVSR-Methode vor, die durch einen Lippen-Graphen unterstützt wird und eine bidirektionale, synchronisierte Fusion nutzt. Zunächst kombiniert ein hybrider visueller Strom die Bildzweig- und Graphzweig-Verarbeitung, um diskriminative visuelle Merkmale zu erfassen. Insbesondere nutzt der Lippen-Graph die natürlichen und dynamischen Verbindungen zwischen den Lippen-Schlüsselpunkten, um die Lippenform zu modellieren, während die zeitliche Entwicklung des Graphen mittels Graphen-Convolutional Networks (GCNs) gefolgt von bidirektionalen Gated Recurrent Units (GRUs) erfasst wird. Zweitens wird der hybride visuelle Strom durch eine auf Aufmerksamkeit basierende, bidirektionale, synchronisierte Fusion mit dem Audiozweig kombiniert, wodurch ein bidirektionaler Informationsaustausch ermöglicht wird, um die Asynchronität zwischen den beiden Modalitäten während der Fusion zu überwinden. Die experimentellen Ergebnisse auf dem LRW-BBC-Datensatz zeigen, dass unsere Methode sowohl unter reinen als auch unter gestörten Bedingungen die Leistung der End-to-End-AVSR-Basismethode übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp