视听语音识别 | SOTA | HyperAI超神经

Audio-Visual Speech Recognition是将配对的音频和视频流转换为文本的任务，旨在通过结合视觉和听觉信息提高语音识别的准确性和鲁棒性。该技术在嘈杂环境下的语音转录、唇读辅助和多模态人机交互中具有重要应用价值。

Whisper-Flamingo