HyperAIHyperAI
il y a 11 jours

LoCATe-GAT : Modélisation du contexte local multi-échelle et des relations d'action pour la reconnaissance d'action zéro-shot

{Arijit Sur, Divyam Singal, Sandipan Sarma}
Résumé

Le nombre croissant d’actions dans le monde réel rend difficile pour les modèles traditionnels de deep learning à reconnaître des actions inédites. Récemment, des modèles préentraînés de vision-langage basés sur des images (I-VL) ont été adaptés afin de permettre une compréhension de scène « zéro-shot » efficace. L’association de tels modèles avec des transformateurs pour réaliser une modélisation temporelle s’est révélée particulièrement prometteuse pour la reconnaissance d’actions zéro-shot (ZSAR). Toutefois, l’importance de modéliser le contexte spatial local des objets et des environnements d’action reste encore peu explorée. Dans ce travail, nous proposons un cadre de ZSAR appelé LoCATe-GAT, composé d’un nouveau transformateur temporel d’agrégation de contexte local (LoCATe) et d’un réseau de graphes à attention (GAT). Plus précisément, les encodages d’image et de texte extraits d’un modèle I-VL préentraîné servent d’entrée à LoCATe-GAT. Inspirés de l’observation selon laquelle les contextes centrés sur les objets et l’environnement déterminent à la fois la discriminabilité et la similarité fonctionnelle entre les actions, le modèle LoCATe capture le contexte local multi-échelle au cours de la modélisation temporelle à l’aide de couches de convolution dilatée. En outre, le GAT proposé modélise les relations sémantiques entre les classes et établit une synergie forte avec les embeddings vidéo produits par LoCATe. Des expériences étendues sur quatre benchmarks largement utilisés — UCF101, HMDB51, ActivityNet et Kinetics — démontrent que nous atteignons des résultats de pointe. Plus précisément, nous obtenons des gains relatifs de 3,8 % et 4,8 % sur ces jeux de données dans des configurations classiques de ZSAR, et un gain relatif de 16,6 % sur UCF101 dans un cadre généralisé de ZSAR. Pour des jeux de données à grande échelle comme ActivityNet et Kinetics, notre méthode atteint respectivement des gains relatifs de 31,8 % et 27,9 % par rapport aux méthodes antérieures. En outre, selon le protocole d’évaluation récent « TruZe », nous obtenons des gains de 25,3 % et 18,4 % sur UCF101 et HMDB51.

LoCATe-GAT : Modélisation du contexte local multi-échelle et des relations d'action pour la reconnaissance d'action zéro-shot | Articles de recherche récents | HyperAI