il y a 6 mois

Résumé

La reconnaissance visuelle de la parole, ou l’écoute labiale automatisée, est un domaine qui suscite un intérêt croissant. Les données vidéo se sont avérées particulièrement utiles dans le cadre de la reconnaissance multimodale de la parole, notamment lorsque les données acoustiques sont fortement bruitées ou même indisponibles. Dans cet article, nous présentons une nouvelle méthode de reconnaissance visuelle de la parole. Nous la benchmarkons sur le célèbre jeu de données LRW dédié à l’écoute labiale, où elle dépasse les approches existantes. Après une évaluation approfondie, nous adaptons la méthode développée et la testons sur le corpus RUSAVIC, que nous avons collecté in-situ dans des conditions réelles pour les conducteurs de véhicules. Les résultats obtenus démontrent non seulement une performance élevée de la méthode proposée, mais également la faisabilité fondamentale de reconnaître la parole uniquement à partir d’un modalité vidéo, même dans des conditions naturelles extrêmement difficiles telles que la conduite.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Vision Par Ordinateur

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Vision Par Ordinateur

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Reconnaissance de la parole visuelle dans un système d'aide à la conduite

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance de la parole visuelle dans un système d'aide à la conduite

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance de la parole visuelle dans un système d'aide à la conduite

Alexey Karpov Alexandr Axyonov Alexey Kashevnik Dmitry Ryumin Denis Ivanko

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters