HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de la parole visuelle dans un système d'aide à la conduite

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Résumé

La reconnaissance visuelle de la parole, ou l’écoute labiale automatisée, est un domaine qui suscite un intérêt croissant. Les données vidéo se sont avérées particulièrement utiles dans le cadre de la reconnaissance multimodale de la parole, notamment lorsque les données acoustiques sont fortement bruitées ou même indisponibles. Dans cet article, nous présentons une nouvelle méthode de reconnaissance visuelle de la parole. Nous la benchmarkons sur le célèbre jeu de données LRW dédié à l’écoute labiale, où elle dépasse les approches existantes. Après une évaluation approfondie, nous adaptons la méthode développée et la testons sur le corpus RUSAVIC, que nous avons collecté in-situ dans des conditions réelles pour les conducteurs de véhicules. Les résultats obtenus démontrent non seulement une performance élevée de la méthode proposée, mais également la faisabilité fondamentale de reconnaître la parole uniquement à partir d’un modalité vidéo, même dans des conditions naturelles extrêmement difficiles telles que la conduite.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Reconnaissance de la parole visuelle dans un système d'aide à la conduite | Articles | HyperAI