Chasse de Indices par Transformateurs pour la Reconnaissance d'Activités de Groupes Sociaux

Cet article présente un nouveau cadre pour la reconnaissance d’activités de groupe social. En tant que tâche élargie de la reconnaissance d’activités de groupe, la reconnaissance d’activités de groupe social exige la détection de plusieurs sous-activités de groupe ainsi que l’identification des membres du groupe. La plupart des méthodes existantes abordent ces deux tâches en affinant les caractéristiques des régions, puis en les résumant en caractéristiques d’activité. Ce design heuristique des caractéristiques rend leur efficacité sensible à une localisation insuffisante des individus et ignore l’importance des contextes scéniques. En outre, les caractéristiques régionales sont sous-optimales pour identifier les membres du groupe, car elles peuvent être dominées par celles des personnes présentes dans ces régions et présenter des sémantiques différentes. Pour surmonter ces limites, nous proposons d’utiliser des modules d’attention issus des transformateurs afin de générer des caractéristiques sociales de groupe efficaces. Notre méthode est conçue de manière à ce que les modules d’attention identifient puis agrègent les caractéristiques pertinentes pour les activités de groupe social, produisant ainsi une caractéristique efficace pour chaque groupe social. Les informations relatives aux membres du groupe sont intégrées dans ces caractéristiques, et peuvent donc être exploitées par des réseaux feed-forward. Les sorties de ces réseaux représentent les groupes de manière si concise que les membres du groupe peuvent être identifiés à l’aide d’un simple appariement de Hongrois entre les groupes et les individus. Les résultats expérimentaux montrent que notre méthode surpasser les méthodes de pointe sur les jeux de données Volleyball et Collective Activity.