Lip Graph-assistierte audiovisuelle Spracherkennung mittels bidirektionaler synchroner Fusion

Aktuelle Studien haben gezeigt, dass die Extraktion repräsentativer visueller Merkmale sowie die effiziente Fusion von Audio- und Visualsequenzen entscheidend für die audio-visuelle Spracherkennung (AVSR) sind, dies stellt jedoch weiterhin eine Herausforderung dar. Um diesem Problem zu begegnen, schlagen wir eine AVSR-Methode vor, die durch einen Lippen-Graphen unterstützt wird und eine bidirektionale, synchronisierte Fusion nutzt. Zunächst kombiniert ein hybrider visueller Strom die Bildzweig- und Graphzweig-Verarbeitung, um diskriminative visuelle Merkmale zu erfassen. Insbesondere nutzt der Lippen-Graph die natürlichen und dynamischen Verbindungen zwischen den Lippen-Schlüsselpunkten, um die Lippenform zu modellieren, während die zeitliche Entwicklung des Graphen mittels Graphen-Convolutional Networks (GCNs) gefolgt von bidirektionalen Gated Recurrent Units (GRUs) erfasst wird. Zweitens wird der hybride visuelle Strom durch eine auf Aufmerksamkeit basierende, bidirektionale, synchronisierte Fusion mit dem Audiozweig kombiniert, wodurch ein bidirektionaler Informationsaustausch ermöglicht wird, um die Asynchronität zwischen den beiden Modalitäten während der Fusion zu überwinden. Die experimentellen Ergebnisse auf dem LRW-BBC-Datensatz zeigen, dass unsere Methode sowohl unter reinen als auch unter gestörten Bedingungen die Leistung der End-to-End-AVSR-Basismethode übertrifft.