HyperAIHyperAI
il y a 9 jours

Transformateur de décomposition d'action sensible à l'incertitude pour l'anticipation d'action

{Qiang Ji, Kwonjoon Lee, Shao-Yuan Lo, Nakul Agarwal, Hongji Guo}
Transformateur de décomposition d'action sensible à l'incertitude pour l'anticipation d'action
Résumé

L’anticipation des actions humaines vise à prédire ce que les individus feront à l’avenir à partir d’observations passées. Dans cet article, nous introduisons le modèle Uncertainty-aware Action Decoupling Transformer (UADT) pour l’anticipation des actions. Contrairement aux méthodes existantes qui prédise directement l’action sous la forme d’un couple verbe-nom, nous décomposons la tâche d’anticipation des actions en deux sous-tâches distinctes : l’anticipation du verbe et celle du nom. L’objectif est de permettre à ces deux tâches décomposées de s’assister mutuellement afin d’améliorer globalement la performance de l’anticipation des actions. Plus précisément, nous proposons une architecture à deux flux basée sur le Transformer, composée d’un modèle verbe→nom et d’un modèle nom→verbe. Le modèle verbe→nom exploite les informations verbales pour améliorer la prédiction du nom, et inversement. Nous étendons ce modèle de manière probabiliste et quantifions l’incertitude prédictive de chaque tâche décomposée afin de sélectionner les caractéristiques les plus pertinentes. Ainsi, la prédiction du nom s’appuie sur les caractéristiques verbales les plus informatives et sans redondance, tandis que la prédiction du verbe fonctionne de manière similaire. Enfin, les deux flux sont combinés de manière dynamique en fonction de leurs incertitudes pour réaliser l’anticipation conjointe de l’action. Nous démontrons l’efficacité de notre méthode en obtenant des performances de pointe sur plusieurs benchmarks d’anticipation des actions, notamment EPIC-KITCHENS, EGTEA Gaze+ et 50-Salads.