HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur temporel hiérarchique pour l'estimation de la posture 3D de la main et la reconnaissance d'actions à partir de vidéos RGB en perspective égocentrique

Yilin Wen Hao Pan Lei Yang Jia Pan Taku Komura Wenping Wang

Résumé

Comprendre les mouvements dynamiques de la main et les actions à partir de vidéos RGB à point de vue subjectif constitue une tâche fondamentale mais difficile en raison des occlusions auto-induites et de l’ambiguïté. Pour atténuer ces problèmes d’occlusion et d’ambiguïté, nous proposons un cadre basé sur les transformateurs afin d’exploiter efficacement les informations temporelles pour une estimation robuste. Observant que la granularité temporelle diffère entre l’estimation de la posture de la main et la reconnaissance d’actions, tout en notant les corrélations sémantiques entre ces deux tâches, nous concevons une hiérarchie de réseau comprenant deux encodeurs transformateurs en cascade : le premier exploite des indices temporels à court terme pour l’estimation de la posture de la main, tandis que le second agrège les informations de posture par trame ainsi que celles relatives aux objets sur une période plus longue afin de reconnaître l’action. Notre approche obtient des résultats compétitifs sur deux benchmarks de reconnaissance d’actions manuelles en point de vue subjectif, à savoir FPHA et H2O. Des études d’ablation approfondies confirment la pertinence de nos choix architecturaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp