Transformateur temporel hiérarchique pour l'estimation de la posture 3D de la main et la reconnaissance d'actions à partir de vidéos RGB en perspective égocentrique

Comprendre les mouvements dynamiques de la main et les actions à partir de vidéos RGB à point de vue subjectif constitue une tâche fondamentale mais difficile en raison des occlusions auto-induites et de l’ambiguïté. Pour atténuer ces problèmes d’occlusion et d’ambiguïté, nous proposons un cadre basé sur les transformateurs afin d’exploiter efficacement les informations temporelles pour une estimation robuste. Observant que la granularité temporelle diffère entre l’estimation de la posture de la main et la reconnaissance d’actions, tout en notant les corrélations sémantiques entre ces deux tâches, nous concevons une hiérarchie de réseau comprenant deux encodeurs transformateurs en cascade : le premier exploite des indices temporels à court terme pour l’estimation de la posture de la main, tandis que le second agrège les informations de posture par trame ainsi que celles relatives aux objets sur une période plus longue afin de reconnaître l’action. Notre approche obtient des résultats compétitifs sur deux benchmarks de reconnaissance d’actions manuelles en point de vue subjectif, à savoir FPHA et H2O. Des études d’ablation approfondies confirment la pertinence de nos choix architecturaux.