il y a 6 mois

Résumé

La reconnaissance continue de la langue des signes (CSLR) vise à identifier les glosses dans une vidéo de langue des signes. Les méthodes de pointe actuelles reposent généralement sur deux modules : un module de perception spatiale et un module d’agrégation temporelle, appris conjointement de manière end-to-end. Les résultats existants dans [9, 20, 25, 36] ont montré que, en tant que composant frontal du modèle global, le module de perception spatiale, chargé d’extraction des caractéristiques spatiales, tend à être insuffisamment entraîné. Dans cet article, nous menons d’abord des études empiriques et démontrons qu’un module d’agrégation temporelle peu profond permet un entraînement plus approfondi du module de perception spatiale. Toutefois, un tel module temporel peu profond peine à capturer efficacement à la fois les informations contextuelles temporelles locales et globales propres à la langue des signes. Pour résoudre ce dilemme, nous proposons un modèle d’agrégation contextuelle temporelle croisée (CTCA). Plus précisément, nous concevons un réseau à double chemin comprenant deux branches, respectivement dédiées à la perception du contexte temporel local et du contexte temporel global. Nous introduisons également une fonction d’apprentissage par distillation de connaissances croisée, permettant d’agrégérer ces deux types de contexte ainsi que les connaissances linguistiques a priori. Cette distillation de connaissances permet au module d’agrégation temporelle final, à branche unique, de percevoir simultanément le contexte temporel local-global et le contexte sémantique. La structure simplifiée du module de perception temporelle favorise ainsi l’apprentissage du module de perception spatiale. Des expériences étendues sur des benchmarks exigeants de CSLR montrent que notre méthode surpasser toutes les approches de pointe existantes.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Reconnaissance D'action

Apprentissage Profond

Domaine De Recherche

Vision Par Ordinateur

Tâche

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension Vidéo

Reconnaissance D'action

Apprentissage Profond

Domaine De Recherche

Vision Par Ordinateur

Tâche

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Distillation de contextes cross-temporels pour la reconnaissance continue de la langue des signes

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Distillation de contextes cross-temporels pour la reconnaissance continue de la langue des signes

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Distillation de contextes cross-temporels pour la reconnaissance continue de la langue des signes

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters