Apprentissage de représentations conscient des alignements-uniformités pour la classification vidéo zéro-shot

La plupart des méthodes abordent la classification vidéo zéro-shot en alignant les représentations visuelles et sémantiques au sein des classes observées, ce qui limite la généralisation aux classes non vues. Pour améliorer la généralisabilité du modèle, cet article présente un cadre end-to-end qui préserve les propriétés d’alignement et d’uniformité des représentations tant pour les classes observées que pour les classes non observées. Plus précisément, nous formulons une perte contrastive supervisée afin d’aligner simultanément les caractéristiques visuelles et sémantiques (c’est-à-dire l’alignement) et d’encourager les caractéristiques apprises à se répartir de manière uniforme (c’est-à-dire l’uniformité). Contrairement aux méthodes existantes qui ne considèrent que l’alignement, nous introduisons l’uniformité afin de préserver l’information maximale des caractéristiques existantes, ce qui augmente la probabilité que les caractéristiques non observées se situent autour des données observées. Par ailleurs, nous synthétisons les caractéristiques des classes non observées en proposant un générateur de classes qui interpole et extrapole les caractéristiques des classes observées. En outre, nous introduisons deux métriques, la proximité et la dispersion, pour quantifier ces deux propriétés et servir de nouvelles mesures de la généralisabilité du modèle. Les expérimentations montrent que notre méthode surpasse significativement l’état de l’art, avec des améliorations relatives de 28,1 % sur UCF101 et de 27,0 % sur HMDB51. Le code est disponible.