Reconnaissance de la parole visuelle dans un système d'aide à la conduite

La reconnaissance visuelle de la parole, ou l’écoute labiale automatisée, est un domaine qui suscite un intérêt croissant. Les données vidéo se sont avérées particulièrement utiles dans le cadre de la reconnaissance multimodale de la parole, notamment lorsque les données acoustiques sont fortement bruitées ou même indisponibles. Dans cet article, nous présentons une nouvelle méthode de reconnaissance visuelle de la parole. Nous la benchmarkons sur le célèbre jeu de données LRW dédié à l’écoute labiale, où elle dépasse les approches existantes. Après une évaluation approfondie, nous adaptons la méthode développée et la testons sur le corpus RUSAVIC, que nous avons collecté in-situ dans des conditions réelles pour les conducteurs de véhicules. Les résultats obtenus démontrent non seulement une performance élevée de la méthode proposée, mais également la faisabilité fondamentale de reconnaître la parole uniquement à partir d’un modalité vidéo, même dans des conditions naturelles extrêmement difficiles telles que la conduite.