HyperAIHyperAI
il y a 2 mois

Compréhension des scènes sociales : Localisation d'actions multi-personnes et reconnaissance d'activités collectives de bout en bout

Timur Bagautdinov; Alexandre Alahi; François Fleuret; Pascal Fua; Silvio Savarese
Compréhension des scènes sociales : Localisation d'actions multi-personnes et reconnaissance d'activités collectives de bout en bout
Résumé

Nous présentons un cadre unifié pour la compréhension des comportements sociaux humains dans des séquences d'images brutes. Notre modèle détecte simultanément plusieurs individus, infère leurs actions sociales et estime les actions collectives avec une seule passe de propagation avant à travers un réseau neuronal. Nous proposons une architecture unique qui ne dépend pas d'algorithmes de détection externes mais qui est formée de manière end-to-end pour générer des cartes de propositions denses qui sont affinées par un nouveau schéma d'inférence. La cohérence temporelle est gérée par un Réseau Neuronal Récurent au niveau individuel. Le modèle complet prend en entrée une séquence d'images et fournit en sortie les détections ainsi que les estimations des actions individuelles et des activités collectives. Nous démontrons les performances de pointe de notre algorithme sur plusieurs benchmarks publiquement disponibles.