HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Audiovisuelle Spracherkennung

Stavros Petridis Themos Stafylakis Pingchuan Ma Feipeng Cai Georgios Tzimiropoulos Maja Pantic

Zusammenfassung

In letzter Zeit wurden mehrere end-to-end Deep-Learning-Ansätze vorgestellt, die entweder audio- oder visuelle Merkmale aus Eingangsbildern oder Audiosignalen extrahieren und Spracherkennung durchführen. Die Forschung zu end-to-end audiovisuellen Modellen ist jedoch sehr begrenzt. In dieser Arbeit präsentieren wir ein end-to-end audiovisuelles Modell, das auf Residual-Netzwerken und bidirektionalen Gatterrekurrenten Einheiten (BGRUs) basiert. Nach bestem Wissen handelt es sich dabei um das erste audiovisuelle Fusionsmodell, das gleichzeitig lernt, Merkmale direkt aus den Bildpixeln und Audio-Waveformen zu extrahieren und kontextbezogene Worterkennung auf einem großen öffentlich zugänglichen Datensatz (LRW) durchführt. Das Modell besteht aus zwei Strömen, jeweils für eine Modalität, die Merkmale direkt aus Mundregionen und rohen Waveformen extrahieren. Die zeitlichen Dynamiken in jedem Strom/Modus werden durch ein zweischichtiges BGRU modelliert, und die Fusion der verschiedenen Ströme/Modalitäten erfolgt über ein weiteres zweischichtiges BGRU. Unter sauberen Audiodingbedingungen und bei niedrigen Rauschpegeln wird eine leichte Verbesserung der Klassifikationsrate im Vergleich zu einem rein audio-basierten end-to-end-Modell und einem MFCC-basierten Modell gemeldet. Bei hohen Rauschpegeln übertrifft das end-to-end audiovisuelle Modell beide rein audio-basierten Modelle erheblich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp