HyperAIHyperAI
il y a 7 jours

Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage

Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David A. Clifton, Jie Chen
Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage
Résumé

La plupart des approches d’apprentissage représentationnel vidéo-langage reposent sur l’apprentissage contrastif, comme CLIP, afin de projeter les caractéristiques vidéo et textuelles dans un espace latent commun en fonction des similarités sémantiques des paires vidéo-texte. Toutefois, les espaces latents partagés ainsi appris ne sont pas toujours optimaux, et l’écart modal entre les représentations visuelles et textuelles ne peut pas être entièrement éliminé. Dans cet article, nous proposons un nouvel algorithme, l’Apprentissage Contrastif par Maximisation-Expectation (EMCL), afin d’apprendre des représentations vidéo-langage compactes. Plus précisément, nous utilisons l’algorithme d’Expectation-Maximization pour identifier un ensemble compact de bases pour l’espace latent, permettant de représenter les caractéristiques de manière concise comme combinaisons linéaires de ces bases. Cette décomposition des représentations vidéo-langage réduit le rang de l’espace latent, augmentant ainsi la puissance représentationnelle des significations. Des expériences étendues sur trois jeux de données standardisés pour la recherche vidéo-texte démontrent que notre méthode EMCL permet d’apprendre des représentations vidéo-langage plus discriminatives que les approches précédentes, et surpassant de manière significative les méthodes de pointe existantes sur l’ensemble des métriques. Plus encourageant encore, la méthode proposée peut être facilement intégrée pour améliorer les performances des approches existantes, soit comme couche d’entraînement conjoint, soit comme module d’inférence « prêt à l’emploi » sans entraînement supplémentaire, ce qui en facilite l’application dans tout cadre existant.