il y a 6 mois

Résumé

La recherche vidéo-texte constitue une tâche cruciale et fondamentale dans le domaine de la recherche multimodale. Le développement de cette tâche a été considérablement accéléré par l’apprentissage préalable contrastif à grande échelle sur des données multimodales, qui se concentre principalement sur des contrastes grossiers ou fins. Toutefois, le contraste inter-échelle — c’est-à-dire le contraste entre des représentations grossières et des représentations fines — a été peu exploré dans les travaux antérieurs. Contrairement aux contrastes uniquement grossiers ou fins, le contraste inter-échelle calcule la corrélation entre les caractéristiques grossières et chaque caractéristique fine, permettant ainsi d’éliminer les caractéristiques fines non pertinentes lors du calcul de similarité, en s’appuyant sur les informations fournies par les caractéristiques grossières, ce qui améliore ainsi la précision de la recherche.Dans cette optique, ce papier présente un nouveau modèle contrastif multi-échelle, nommé X-CLIP, dédié à la recherche vidéo-texte. Toutefois, un autre défi réside dans le problème d’agrégation de similarité, qui consiste à combiner les matrices de similarité fines et inter-échelle afin d’obtenir une similarité au niveau de l’instance. Pour relever ce défi, nous proposons un module appelé Attention Over Similarity Matrix (AOSM), qui permet au modèle de se concentrer sur les contrastes entre les cadres et mots essentiels, réduisant ainsi l’impact des cadres et mots non pertinents sur les résultats de recherche.Grâce à l’intégration du contraste multi-échelle et du module AOSM proposé, X-CLIP atteint des performances exceptionnelles sur cinq jeux de données largement utilisés pour la recherche vidéo-texte : MSR-VTT (49,3 R@1), MSVD (50,4 R@1), LSMDC (26,1 R@1), DiDeMo (47,8 R@1) et ActivityNet (46,2 R@1). Il dépasse l’état de l’art précédent avec des améliorations relatives de +6,3 %, +6,6 %, +11,1 %, +6,7 % et +3,8 % respectivement sur ces benchmarks, démontrant ainsi l’efficacité et l’avantage du contraste multi-échelle ainsi que du module AOSM.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Video Captioning

Multimodal

Tâche

Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Video Captioning

Multimodal

Tâche

Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

X-CLIP : Apprentissage contrastif multi-granulaire en boucle complète pour la recherche vidéo-texte | Articles | HyperAI

Command Palette

X-CLIP : Apprentissage contrastif multi-granulaire en boucle complète pour la recherche vidéo-texte

Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

X-CLIP : Apprentissage contrastif multi-granulaire en boucle complète pour la recherche vidéo-texte

Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

X-CLIP : Apprentissage contrastif multi-granulaire en boucle complète pour la recherche vidéo-texte

Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters