il y a 6 mois

Résumé

Les cadres modernes de recherche vidéo-texte se composent essentiellement de trois composants : un encodeur vidéo, un encodeur texte et une tête de similarité. Grâce aux progrès réalisés dans l'apprentissage des représentations visuelles et textuelles, les encodeurs basés sur les transformateurs ainsi que les méthodes de fusion ont également été adoptés dans le domaine de la recherche vidéo-texte. Dans ce rapport, nous présentons CLIP2TV, dans le but d’explorer les éléments clés présents dans les méthodes basées sur les transformateurs. Pour atteindre cet objectif, nous revisitons tout d’abord certaines travaux récents sur l’apprentissage multimodal, puis introduisons plusieurs techniques dans le cadre de la recherche vidéo-texte, avant d’évaluer celles-ci à l’aide d’expériences étendues dans différentes configurations. Notamment, CLIP2TV atteint un score de 52,9@R1 sur le jeu de données MSR-VTT, surpassant ainsi le résultat SOTA précédent de 4,1 %.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Représentation Multimodale

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Représentation Multimodale

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CLIP2TV : Aligner, Apparier et Distiller pour la Recherche Vidéo-Texte

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CLIP2TV : Aligner, Apparier et Distiller pour la Recherche Vidéo-Texte

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CLIP2TV : Aligner, Apparier et Distiller pour la Recherche Vidéo-Texte

Zijian Gao Jingyu Liu Weiqi Sun Sheng Chen Dedan Chang Lili Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters