il y a 18 jours

Transformers croisés temporel-relationnels pour la reconnaissance d’actions à faible exemple

Toby Perrett, Alessandro Masullo, Tilo Burghardt, Majid Mirmehdi, Dima Damen

Résumé

Nous proposons une nouvelle approche pour la reconnaissance d’actions en peu d’exemples, consistant à identifier des tuples de trames temporellement corrélées entre la requête et les vidéos du jeu de support. Contrairement aux travaux précédents, nous construisons des prototypes de classes à l’aide du mécanisme d’attention CrossTransformer afin d’observer les sous-séquences pertinentes de toutes les vidéos du jeu de support, plutôt que d’utiliser des moyennes par classe ou des correspondances uniques optimales. Les représentations vidéo sont formées à partir de tuples ordonnés comprenant un nombre variable de trames, ce qui permet de comparer des sous-séquences d’actions à des vitesses et décalages temporels différents.Nos Temporal-Relational CrossTransformers (TRX), proposés dans cette étude, atteignent des résultats de pointe sur les partitions en peu d’exemples des jeux de données Kinetics, Something-Something V2 (SSv2), HMDB51 et UCF101. De manière notable, notre méthode surpasse significativement les approches antérieures sur SSv2, avec une amélioration de 12 %, attribuée à sa capacité à modéliser les relations temporelles. Une analyse ablation détaillée met en évidence l’importance de la correspondance avec plusieurs vidéos du jeu de support ainsi que de l’apprentissage de CrossTransformers relationnels d’ordre supérieur.