HyperAIHyperAI
il y a 9 jours

Prédiction de l'action suivante par modélisation de l'objectif abstrait

Debaditya Roy, Basura Fernando
Prédiction de l'action suivante par modélisation de l'objectif abstrait
Résumé

Le problème de l’anticipation des actions humaines est intrinsèquement incertain. Toutefois, nous pouvons réduire cette incertitude si nous disposons d’une idée claire de l’objectif que l’agent cherche à atteindre. Dans cet article, nous présentons un modèle d’anticipation d’actions qui exploite l’information relative à l’objectif afin de réduire l’incertitude dans les prédictions futures. Étant donné que nous ne disposons ni d’information sur l’objectif ni des actions observées au moment de l’inférence, nous recourons à une représentation visuelle pour encapsuler l’information relative à la fois aux actions et aux objectifs. À partir de cette approche, nous introduisons un nouveau concept appelé objectif abstrait, conditionné par les séquences observées de caractéristiques visuelles pour l’anticipation d’actions. Nous concevons cet objectif abstrait comme une distribution dont les paramètres sont estimés à l’aide d’un réseau récurrent variationnel. Nous échantillonnons plusieurs candidats pour l’action suivante, puis introduisons une mesure de cohérence par rapport à l’objectif afin de déterminer le meilleur candidat conforme à cet objectif abstrait. Notre méthode obtient des résultats remarquables sur les jeux de données très exigeants Epic-Kitchens55 (EK55), EK100 et EGTEA Gaze+. Sur le jeu de données EK55, pour les cuisines vues (S1), nous obtenons des améliorations absolues de +13,69, +11,24 et +5,19 respectivement pour la précision Top-1 au niveau du verbe, du nom et de l’action, par rapport aux méthodes les plus avancées précédentes. De même, des améliorations significatives sont observées sur le sous-ensemble des cuisines non vues (S2), avec des gains absolus de +10,75 (verbe), +5,84 (nom) et +2,87 (action). Une tendance similaire est observée sur le jeu de données EGTEA Gaze+, où nous obtenons des améliorations absolues de +9,9 (nom), +13,1 (verbe) et +6,8 (action). C’est grâce à cette soumission que notre méthode devient actuellement l’état de l’art pour l’anticipation d’actions sur EK55 et EGTEA Gaze+ : https://competitions.codalab.org/competitions/20071#results. Le code source est disponible à l’adresse : https://github.com/debadityaroy/Abstract_Goal