HyperAIHyperAI
il y a 10 jours

Reconnaissance de la parole visuelle dans un système d'aide à la conduite

{Alexey Karpov, Alexandr Axyonov, Alexey Kashevnik, Dmitry Ryumin, Denis Ivanko}
Reconnaissance de la parole visuelle dans un système d'aide à la conduite
Résumé

La reconnaissance visuelle de la parole, ou l’écoute labiale automatisée, est un domaine qui suscite un intérêt croissant. Les données vidéo se sont avérées particulièrement utiles dans le cadre de la reconnaissance multimodale de la parole, notamment lorsque les données acoustiques sont fortement bruitées ou même indisponibles. Dans cet article, nous présentons une nouvelle méthode de reconnaissance visuelle de la parole. Nous la benchmarkons sur le célèbre jeu de données LRW dédié à l’écoute labiale, où elle dépasse les approches existantes. Après une évaluation approfondie, nous adaptons la méthode développée et la testons sur le corpus RUSAVIC, que nous avons collecté in-situ dans des conditions réelles pour les conducteurs de véhicules. Les résultats obtenus démontrent non seulement une performance élevée de la méthode proposée, mais également la faisabilité fondamentale de reconnaître la parole uniquement à partir d’un modalité vidéo, même dans des conditions naturelles extrêmement difficiles telles que la conduite.

Reconnaissance de la parole visuelle dans un système d'aide à la conduite | Articles de recherche récents | HyperAI