HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Résumé

La plupart des approches d’apprentissage représentationnel vidéo-langage reposent sur l’apprentissage contrastif, comme CLIP, afin de projeter les caractéristiques vidéo et textuelles dans un espace latent commun en fonction des similarités sémantiques des paires vidéo-texte. Toutefois, les espaces latents partagés ainsi appris ne sont pas toujours optimaux, et l’écart modal entre les représentations visuelles et textuelles ne peut pas être entièrement éliminé. Dans cet article, nous proposons un nouvel algorithme, l’Apprentissage Contrastif par Maximisation-Expectation (EMCL), afin d’apprendre des représentations vidéo-langage compactes. Plus précisément, nous utilisons l’algorithme d’Expectation-Maximization pour identifier un ensemble compact de bases pour l’espace latent, permettant de représenter les caractéristiques de manière concise comme combinaisons linéaires de ces bases. Cette décomposition des représentations vidéo-langage réduit le rang de l’espace latent, augmentant ainsi la puissance représentationnelle des significations. Des expériences étendues sur trois jeux de données standardisés pour la recherche vidéo-texte démontrent que notre méthode EMCL permet d’apprendre des représentations vidéo-langage plus discriminatives que les approches précédentes, et surpassant de manière significative les méthodes de pointe existantes sur l’ensemble des métriques. Plus encourageant encore, la méthode proposée peut être facilement intégrée pour améliorer les performances des approches existantes, soit comme couche d’entraînement conjoint, soit comme module d’inférence « prêt à l’emploi » sans entraînement supplémentaire, ce qui en facilite l’application dans tout cadre existant.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage | Articles | HyperAI