L'attention est tout ce dont nous avons besoin : Définir l'attention centrée sur les objets pour la reconnaissance d'activités égocentriques

Dans cet article, nous proposons un modèle de réseau neuronal profond (deep neural network) entraînable de bout en bout pour la reconnaissance d'activités égocentriques. Notre modèle repose sur l'observation que les activités égocentriques sont fortement caractérisées par les objets et leurs emplacements dans la vidéo. À partir de cette constatation, nous développons un mécanisme d'attention spatiale qui permet au réseau de se concentrer sur les régions contenant des objets corrélés à l'activité considérée. Nous apprenons des cartes d'attention très spécialisées pour chaque image en utilisant des activations spécifiques aux classes issues d'un CNN pré-entraîné pour la reconnaissance d'images génériques, et nous les utilisons pour l'encodage spatio-temporel de la vidéo avec un LSTM convolutif. Notre modèle est entraîné dans un cadre faiblement supervisé en utilisant des étiquettes de classe d'activité au niveau de la vidéo brute. Néanmoins, sur des benchmarks standard pour la reconnaissance d'activités égocentriques, notre modèle dépasse jusqu'à +6 points de précision de reconnaissance la méthode actuellement la plus performante qui utilise une supervision forte basée sur le segmentage manuel et l'emplacement des objets pour l'entraînement. Nous analysons visuellement les cartes d'attention générées par le réseau, révélant que celui-ci identifie avec succès les objets pertinents présents dans les images de la vidéo, ce qui pourrait expliquer ses performances élevées en reconnaissance. Nous discutons également d'une analyse exhaustive par suppression (ablation analysis) concernant les choix de conception.