il y a 6 mois

Résumé

La plupart des approches d’apprentissage représentationnel vidéo-langage reposent sur l’apprentissage contrastif, comme CLIP, afin de projeter les caractéristiques vidéo et textuelles dans un espace latent commun en fonction des similarités sémantiques des paires vidéo-texte. Toutefois, les espaces latents partagés ainsi appris ne sont pas toujours optimaux, et l’écart modal entre les représentations visuelles et textuelles ne peut pas être entièrement éliminé. Dans cet article, nous proposons un nouvel algorithme, l’Apprentissage Contrastif par Maximisation-Expectation (EMCL), afin d’apprendre des représentations vidéo-langage compactes. Plus précisément, nous utilisons l’algorithme d’Expectation-Maximization pour identifier un ensemble compact de bases pour l’espace latent, permettant de représenter les caractéristiques de manière concise comme combinaisons linéaires de ces bases. Cette décomposition des représentations vidéo-langage réduit le rang de l’espace latent, augmentant ainsi la puissance représentationnelle des significations. Des expériences étendues sur trois jeux de données standardisés pour la recherche vidéo-texte démontrent que notre méthode EMCL permet d’apprendre des représentations vidéo-langage plus discriminatives que les approches précédentes, et surpassant de manière significative les méthodes de pointe existantes sur l’ensemble des métriques. Plus encourageant encore, la méthode proposée peut être facilement intégrée pour améliorer les performances des approches existantes, soit comme couche d’entraînement conjoint, soit comme module d’inférence « prêt à l’emploi » sans entraînement supplémentaire, ce qui en facilite l’application dans tout cadre existant.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Compréhension Vidéo

Apprentissage Profond

Domaine De Recherche

Multimodal

Vision Par Ordinateur

Tâche

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Compréhension Vidéo

Apprentissage Profond

Domaine De Recherche

Multimodal

Vision Par Ordinateur

Tâche

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage | Articles | HyperAI

Command Palette

Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage contrastif par maximisation de l'espérance pour des représentations compactes vidéo-langage

Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David A. Clifton Jie Chen

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters