HyperAIHyperAI
il y a 17 jours

COMPOSER : Raisonnement compositionnel des activités de groupe dans les vidéos à l’aide d’une modalité uniquement basée sur les points clés

Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf
COMPOSER : Raisonnement compositionnel des activités de groupe dans les vidéos à l’aide d’une modalité uniquement basée sur les points clés
Résumé

La reconnaissance d’activités de groupe détecte l’activité réalisée collectivement par un groupe d’acteurs, ce qui nécessite un raisonnement compositionnel impliquant à la fois les acteurs et les objets. Nous abordons cette tâche en modélisant la vidéo sous la forme de tokens représentant des concepts sémantiques à plusieurs échelles. Nous proposons COMPOSER, une architecture basée sur un Transformer multiscale, qui effectue un raisonnement fondé sur l’attention sur les tokens à chaque échelle et apprend de manière compositionnelle la structure des activités de groupe. En outre, les travaux antérieurs souffrent souvent de biais liés à la scène, soulevant des préoccupations éthiques et de confidentialité. Nous utilisons uniquement le modality des points clés, ce qui réduit les biais scéniques et empêche l’acquisition de données visuelles détaillées pouvant contenir des informations privées ou biaisées sur les utilisateurs. Nous améliorons les représentations multiscales dans COMPOSER en regroupant les représentations intermédiaires par clustering, tout en maintenant des affectations de clusters cohérentes entre les différentes échelles. Enfin, nous employons des techniques telles que la prédiction auxiliaire et des augmentations de données adaptées aux signaux de points clés afin d’aider l’entraînement du modèle. Nous démontrons la puissance et l’interprétabilité du modèle sur deux jeux de données largement utilisés (Volleyball et Collective Activity). COMPOSER obtient une amélioration allant jusqu’à +5,4 % en utilisant uniquement la modality des points clés. Le code est disponible à l’adresse suivante : https://github.com/hongluzhou/composer