HyperAIHyperAI

Command Palette

Search for a command to run...

L'attention est tout ce dont nous avons besoin : Définir l'attention centrée sur les objets pour la reconnaissance d'activités égocentriques

Swathi Kiran Sudhakaran Oswald Lanz

Résumé

Dans cet article, nous proposons un modèle de réseau neuronal profond (deep neural network) entraînable de bout en bout pour la reconnaissance d'activités égocentriques. Notre modèle repose sur l'observation que les activités égocentriques sont fortement caractérisées par les objets et leurs emplacements dans la vidéo. À partir de cette constatation, nous développons un mécanisme d'attention spatiale qui permet au réseau de se concentrer sur les régions contenant des objets corrélés à l'activité considérée. Nous apprenons des cartes d'attention très spécialisées pour chaque image en utilisant des activations spécifiques aux classes issues d'un CNN pré-entraîné pour la reconnaissance d'images génériques, et nous les utilisons pour l'encodage spatio-temporel de la vidéo avec un LSTM convolutif. Notre modèle est entraîné dans un cadre faiblement supervisé en utilisant des étiquettes de classe d'activité au niveau de la vidéo brute. Néanmoins, sur des benchmarks standard pour la reconnaissance d'activités égocentriques, notre modèle dépasse jusqu'à +6 points de précision de reconnaissance la méthode actuellement la plus performante qui utilise une supervision forte basée sur le segmentage manuel et l'emplacement des objets pour l'entraînement. Nous analysons visuellement les cartes d'attention générées par le réseau, révélant que celui-ci identifie avec succès les objets pertinents présents dans les images de la vidéo, ce qui pourrait expliquer ses performances élevées en reconnaissance. Nous discutons également d'une analyse exhaustive par suppression (ablation analysis) concernant les choix de conception.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp