HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers croisés temporel-relationnels pour la reconnaissance d’actions à faible exemple

Toby Perrett Alessandro Masullo Tilo Burghardt Majid Mirmehdi Dima Damen

Résumé

Nous proposons une nouvelle approche pour la reconnaissance d’actions en peu d’exemples, consistant à identifier des tuples de trames temporellement corrélées entre la requête et les vidéos du jeu de support. Contrairement aux travaux précédents, nous construisons des prototypes de classes à l’aide du mécanisme d’attention CrossTransformer afin d’observer les sous-séquences pertinentes de toutes les vidéos du jeu de support, plutôt que d’utiliser des moyennes par classe ou des correspondances uniques optimales. Les représentations vidéo sont formées à partir de tuples ordonnés comprenant un nombre variable de trames, ce qui permet de comparer des sous-séquences d’actions à des vitesses et décalages temporels différents.Nos Temporal-Relational CrossTransformers (TRX), proposés dans cette étude, atteignent des résultats de pointe sur les partitions en peu d’exemples des jeux de données Kinetics, Something-Something V2 (SSv2), HMDB51 et UCF101. De manière notable, notre méthode surpasse significativement les approches antérieures sur SSv2, avec une amélioration de 12 %, attribuée à sa capacité à modéliser les relations temporelles. Une analyse ablation détaillée met en évidence l’importance de la correspondance avec plusieurs vidéos du jeu de support ainsi que de l’apprentissage de CrossTransformers relationnels d’ordre supérieur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformers croisés temporel-relationnels pour la reconnaissance d’actions à faible exemple | Articles | HyperAI