Reconnaissance vocale audiovisuelle
La Reconnaissance Audio-Visuelle de la Parole est la tâche de transcrire des flux audio et vidéo associés en texte, visant à améliorer la précision et la robustesse de la reconnaissance de la parole en combinant les informations visuelles et auditives. Cette technologie présente une valeur d'application importante dans la transcription de la parole dans des environnements bruyants, l'assistance à la lecture labiale et l'interaction multimodale homme-machine.