il y a 15 jours

Apprentissage de représentation cross-modale pour la reconnaissance d’actions zéro-shot

Chung-Ching Lin, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

Résumé

Nous présentons un cadre fondé sur les Transformers et multi-modaux, qui encode conjointement les données vidéo et les étiquettes textuelles pour la reconnaissance d’actions en zéro-shot (ZSAR). Notre modèle met en œuvre un pipeline conceptuellement nouveau, dans lequel les représentations visuelles sont apprises en parallèle avec les associations visuelles-sémantiques de manière end-to-end. Cette architecture permet une apprentissage naturel des représentations visuelles et sémantiques dans un espace commun de connaissance, favorisant ainsi l’apprentissage d’embeddings visuels discriminants et plus cohérents sur le plan sémantique. Lors de l’inférence en zéro-shot, nous proposons une méthode simple de transfert sémantique, qui intègre des informations de similarité sémantique entre les classes vues et non vues afin de construire des prototypes visuels non vus. Ainsi, les caractéristiques discriminantes de la structure visuelle sont préservées et exploitées, permettant de atténuer les problèmes classiques du zéro-shot, tels que la perte d’information, le fossé sémantique et le problème de hubness. Dans un cadre de zéro-shot rigoureux, sans pré-entraînement sur des jeux de données supplémentaires, les résultats expérimentaux montrent que notre modèle améliore significativement les états de l’art en ZSAR, atteignant des performances encourageantes en précision top-1 sur les jeux de données benchmarks UCF101, HMDB51 et ActivityNet. Le code source sera rendu disponible.