HyperAIHyperAI
il y a 2 mois

Attentionnel Pooling pour la Reconnaissance d'Actions

Rohit Girdhar; Deva Ramanan
Attentionnel Pooling pour la Reconnaissance d'Actions
Résumé

Nous présentons un modèle simple mais surprenamment puissant pour intégrer l'attention dans les tâches de reconnaissance d'actions et d'interaction entre humains et objets. Le module d'attention que nous proposons peut être entraîné avec ou sans supervision supplémentaire, offrant une augmentation notable de la précision tout en maintenant pratiquement inchangées la taille du réseau et le coût computationnel. Il permet des améliorations significatives par rapport aux architectures de pointe actuelles sur trois benchmarks standards de reconnaissance d'actions, tant pour les images fixes que pour les vidéos, et établit un nouveau record sur le jeu de données MPII avec une amélioration relative de 12,5 %. Nous effectuons également une analyse approfondie de notre module d'attention, à la fois empirique et analytique. Dans ce dernier cas, nous introduisons une nouvelle dérivation de l'attention ascendante (bottom-up) et descendante (top-down) comme des approximations de rang faible des méthodes de poolage bilinéaire (généralement utilisées pour la classification fine). De cette perspective, notre formulation de l'attention suggère une nouvelle caractérisation de la reconnaissance d'actions en tant que problème de reconnaissance fine-grained.

Attentionnel Pooling pour la Reconnaissance d'Actions | Articles de recherche récents | HyperAI