Intégration du regard humain dans l'attention pour la reconnaissance d'activités égocentriques

Il est bien connu que le regard humain porte des informations significatives sur l'attention visuelle. Cependant, trois difficultés principales se posent lors de l'intégration des données de regard dans un mécanisme d'attention des réseaux neuronaux profonds : 1) les points de fixation du regard sont susceptibles d'avoir des erreurs de mesure dues aux clignements et aux mouvements rapides des yeux ; 2) il n'est pas clair quand et dans quelle mesure les données de regard sont corrélées à l'attention visuelle ; et 3) les données de regard ne sont pas toujours disponibles dans de nombreuses situations réelles. Dans ce travail, nous présentons une approche probabiliste efficace pour intégrer le regard humain dans l'attention spatiotemporelle pour la reconnaissance d'activités égocentriques. Plus précisément, nous représentons les emplacements des points de fixation du regard comme des variables latentes discrètes structurées afin de modéliser leurs incertitudes. De plus, nous modélisons la distribution des fixations oculaires en utilisant une méthode variationnelle. La distribution du regard est apprise au cours du processus d'entraînement, de sorte que les annotations véritables des emplacements du regard ne sont plus nécessaires dans les situations de test puisqu'elles sont prédites à partir de la distribution du regard apprise. Les emplacements prédits du regard sont utilisés pour fournir des indices attentionnels informatifs afin d'améliorer les performances de reconnaissance. Notre méthode surpasses toutes les approches précédentes de pointe sur EGTEA, qui est un ensemble de données à grande échelle pour la reconnaissance d'activités égocentriques fourni avec des mesures du regard. Nous effectuons également une étude par désactivation (ablation study) et une analyse qualitative pour démontrer que notre mécanisme d'attention est efficace.