HyperAIHyperAI
il y a 16 jours

TACo : Apprentissage contrastif en cascade sensible aux tokens pour l’alignement vidéo-texte

Jianwei Yang, Yonatan Bisk, Jianfeng Gao
TACo : Apprentissage contrastif en cascade sensible aux tokens pour l’alignement vidéo-texte
Résumé

L’apprentissage contrastif est largement utilisé pour entraîner des modèles vision-langage basés sur les transformateurs afin d’assurer l’alignement vidéo-texte et l’apprentissage de représentations multi-modales. Ce papier présente un nouvel algorithme appelé apprentissage contrastif en cascade sensible aux tokens (TACo), qui améliore l’apprentissage contrastif grâce à deux techniques novatrices. La première est une perte contrastive sensible aux tokens, calculée en tenant compte des classes syntaxiques des mots. Cette approche s’inspire de l’observation selon laquelle, pour une paire vidéo-texte, les mots significatifs du texte — tels que les noms et les verbes — sont plus susceptibles d’être alignés avec le contenu visuel de la vidéo que les mots fonctionnels. Deuxièmement, une méthode d’échantillonnage en cascade est appliquée pour générer un petit ensemble d’exemples négatifs difficiles, permettant une estimation efficace de la perte dans les couches de fusion multi-modale. Pour valider l’efficacité de TACo, nous avons finement ajusté des modèles pré-entraînés sur un ensemble de tâches en aval, incluant la recherche vidéo-texte (YouCook2, MSR-VTT et ActivityNet), la localisation des étapes d’action vidéo (CrossTask) et la segmentation des actions vidéo (COIN). Les résultats montrent que nos modèles obtiennent des améliorations cohérentes dans diverses configurations expérimentales par rapport aux méthodes antérieures, établissant de nouveaux états de l’art sur trois benchmarks publics de recherche vidéo-texte : YouCook2, MSR-VTT et ActivityNet.