HyperAI

Audio-Visuelle Spracherkennung ist die Aufgabe, gepaarte Audiostreams und Videostreams in Text umzuwandeln, wobei das Ziel ist, die Genauigkeit und Robustheit der Spracherkennung durch die Kombination von visuellen und akustischen Informationen zu verbessern. Diese Technologie hat erheblichen Anwendungswert bei der Sprachtranskription in geräuscharmen Umgebungen, bei der Unterstützung beim Lippenlesen und bei multimodalem Mensch-Computer-Interaktion.

LRS3-TED

CTC/Attention