HyperAIHyperAI

Command Palette

Search for a command to run...

Diskriminative Mehrmodalitätsspracherkennung

Bo Xu Cheng Lu Yandong Guo Jacob Wang

Zusammenfassung

Vision wird häufig als ergänzende Modalität für die Spracherkennung aus Audio (ASR) eingesetzt, insbesondere in geräuschkritischen Umgebungen, in denen die Leistung der alleinigen Audio-Modalität erheblich abnimmt. Durch die Kombination der visuellen Modalität wird die ASR-Technologie zu einer multimodalen Spracherkennung (MSR) erweitert. In diesem Artikel stellen wir ein zweistufiges Spracherkennungsmodell vor. Im ersten Schritt wird die Zielstimme mithilfe der entsprechenden visuellen Informationen zu Lippenbewegungen von Hintergrundgeräuschen getrennt, wodurch das Modell „klar“ hören kann. Im zweiten Schritt kombiniert die Audio-Modalität erneut die visuelle Modalität über ein MSR-Untermodell, um die Sprachinterpretation zu verbessern und die Erkennungsrate weiter zu steigern. Zu den weiteren wesentlichen Beiträgen zählen: die Einführung eines pseudo-3D-Residual-Convolution (P3D)-basierten visuellen Front-Ends zur Extraktion diskriminativerer Merkmale; die Verbesserung des zeitlichen Faltungssblocks von 1D-ResNet hin zu einem Temporal Convolutional Network (TCN), das besser für zeitliche Aufgaben geeignet ist; sowie die Implementierung des MSR-Untermodells auf Basis des Element-wise-Attention Gated Recurrent Unit (EleAtt-GRU), das sich bei langen Sequenzen als leistungsfähiger erweist als Transformer. Umfassende Experimente wurden auf den Datensätzen LRS3-TED und LRW durchgeführt. Unser zweistufiges Modell (audio-enhanced multi-modality speech recognition, AE-MSR) erzielt konsistent Spitzenleistungen mit deutlichem Abstand gegenüber bestehenden Ansätzen, was die Notwendigkeit und Effektivität von AE-MSR eindrucksvoll belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Diskriminative Mehrmodalitätsspracherkennung | Paper | HyperAI