il y a 6 mois

Résumé

La reconnaissance continue des langues des signes (CSLR) désigne le problème difficile de reconnaître les glosses linguistiques et leurs bornes temporelles à partir de séquences vidéo faiblement annotées. Les méthodes précédentes se concentrent principalement sur l'extraction des caractéristiques visuelles, tout en négligeant les informations textuelles et en échouant à modéliser efficacement les dépendances intra-glosses. Dans ce travail, une approche d'apprentissage cross-modale est proposée afin d'exploiter les informations textuelles pour améliorer la reconnaissance visuelle de la langue des signes. À cette fin, deux réseaux d'encodage puissants sont initialement utilisés pour générer des représentations vectorielles (embeddings) à partir des vidéos et du texte, avant leur projection et leur alignement dans une représentation latente commune. L'objectif de l'alignement cross-modale proposé est de modéliser les dépendances intra-glosses et de produire des représentations latentes basées sur la vidéo plus descriptives pour la CSLR. La méthode proposée est entraînée de manière conjointe à partir des représentations latentes vidéo et textuelles. Enfin, les représentations latentes vidéo alignées sont classées à l’aide d’un décodeur entraîné conjointement. Des expériences étendues menées sur trois bases de données bien connues de reconnaissance des langues des signes, ainsi qu’une comparaison avec les approches de pointe, démontrent le grand potentiel de l’approche proposée.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Petros Daras DIMITRIOS KONSTANTINIDIS Kosmas Dimitropoulos Ilias Papastratis

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Petros Daras DIMITRIOS KONSTANTINIDIS Kosmas Dimitropoulos Ilias Papastratis

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Reconnaissance continue de la langue des signes par alignement cross-modale des embeddings vidéo et texte dans un espace latent commun

Petros Daras DIMITRIOS KONSTANTINIDIS Kosmas Dimitropoulos Ilias Papastratis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance continue de la langue des signes par alignement cross-modale des embeddings vidéo et texte dans un espace latent commun

Petros Daras DIMITRIOS KONSTANTINIDIS Kosmas Dimitropoulos Ilias Papastratis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Reconnaissance continue de la langue des signes par alignement cross-modale des embeddings vidéo et texte dans un espace latent commun

Petros Daras DIMITRIOS KONSTANTINIDIS Kosmas Dimitropoulos Ilias Papastratis

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters