HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de représentation cross-modale pour la reconnaissance d’actions zéro-shot

Chung-Ching Lin Kevin Lin Linjie Li Lijuan Wang Zicheng Liu

Résumé

Nous présentons un cadre fondé sur les Transformers et multi-modaux, qui encode conjointement les données vidéo et les étiquettes textuelles pour la reconnaissance d’actions en zéro-shot (ZSAR). Notre modèle met en œuvre un pipeline conceptuellement nouveau, dans lequel les représentations visuelles sont apprises en parallèle avec les associations visuelles-sémantiques de manière end-to-end. Cette architecture permet une apprentissage naturel des représentations visuelles et sémantiques dans un espace commun de connaissance, favorisant ainsi l’apprentissage d’embeddings visuels discriminants et plus cohérents sur le plan sémantique. Lors de l’inférence en zéro-shot, nous proposons une méthode simple de transfert sémantique, qui intègre des informations de similarité sémantique entre les classes vues et non vues afin de construire des prototypes visuels non vus. Ainsi, les caractéristiques discriminantes de la structure visuelle sont préservées et exploitées, permettant de atténuer les problèmes classiques du zéro-shot, tels que la perte d’information, le fossé sémantique et le problème de hubness. Dans un cadre de zéro-shot rigoureux, sans pré-entraînement sur des jeux de données supplémentaires, les résultats expérimentaux montrent que notre modèle améliore significativement les états de l’art en ZSAR, atteignant des performances encourageantes en précision top-1 sur les jeux de données benchmarks UCF101, HMDB51 et ActivityNet. Le code source sera rendu disponible.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp