Audio Visual Active Speaker Detection
La Détection Audio-Visuelle de l'Orateur Actif est une technologie développée à partir de la vision par ordinateur, visant à analyser les informations audio et visuelles dans les vidéos pour déterminer quand chaque personne visible parle. Cette technologie intègre des méthodes de traitement de données multimodales, ce qui lui permet d'identifier avec précision les orateurs et d'améliorer les performances des systèmes d'interaction homme-machine. Elle est largement utilisée dans des domaines tels que la transcription de réunions, la surveillance intelligente et l'analyse de contenu vidéo.