Diskriminative Mehrmodalitätsspracherkennung

Vision wird häufig als ergänzende Modalität für die Spracherkennung aus Audio (ASR) eingesetzt, insbesondere in geräuschkritischen Umgebungen, in denen die Leistung der alleinigen Audio-Modalität erheblich abnimmt. Durch die Kombination der visuellen Modalität wird die ASR-Technologie zu einer multimodalen Spracherkennung (MSR) erweitert. In diesem Artikel stellen wir ein zweistufiges Spracherkennungsmodell vor. Im ersten Schritt wird die Zielstimme mithilfe der entsprechenden visuellen Informationen zu Lippenbewegungen von Hintergrundgeräuschen getrennt, wodurch das Modell „klar“ hören kann. Im zweiten Schritt kombiniert die Audio-Modalität erneut die visuelle Modalität über ein MSR-Untermodell, um die Sprachinterpretation zu verbessern und die Erkennungsrate weiter zu steigern. Zu den weiteren wesentlichen Beiträgen zählen: die Einführung eines pseudo-3D-Residual-Convolution (P3D)-basierten visuellen Front-Ends zur Extraktion diskriminativerer Merkmale; die Verbesserung des zeitlichen Faltungssblocks von 1D-ResNet hin zu einem Temporal Convolutional Network (TCN), das besser für zeitliche Aufgaben geeignet ist; sowie die Implementierung des MSR-Untermodells auf Basis des Element-wise-Attention Gated Recurrent Unit (EleAtt-GRU), das sich bei langen Sequenzen als leistungsfähiger erweist als Transformer. Umfassende Experimente wurden auf den Datensätzen LRS3-TED und LRW durchgeführt. Unser zweistufiges Modell (audio-enhanced multi-modality speech recognition, AE-MSR) erzielt konsistent Spitzenleistungen mit deutlichem Abstand gegenüber bestehenden Ansätzen, was die Notwendigkeit und Effektivität von AE-MSR eindrucksvoll belegt.