HyperAIHyperAI
il y a 9 jours

Le texte vidéo en tant que joueur de jeu : interaction hiérarchique de Banzhaf pour l'apprentissage représentationnel intermodale

Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen
Le texte vidéo en tant que joueur de jeu : interaction hiérarchique de Banzhaf pour l'apprentissage représentationnel intermodale
Résumé

Les approches fondées sur l’apprentissage contrastif pour l’apprentissage des représentations vidéo-langage, telles que CLIP, ont atteint des performances remarquables en cherchant à modéliser l’interaction sémantique à partir de paires vidéo-texte prédéfinies. Pour clarifier cette interaction globale de granularité grossière et aller plus loin, il est nécessaire de relever le défi de l’interaction fine à l’échelle fine, caractérisée par une complexité accrue. Dans ce travail, nous proposons de modéliser de manière originale la correspondance vidéo-texte à l’aide d’un cadre de théorie des jeux coopératifs multivariés, permettant de gérer intelligemment l’incertitude inhérente à l’interaction sémantique fine, avec une granularité variable, des combinaisons souples et une intensité floue. Plus précisément, nous introduisons une méthode appelée Interaction de Banzhaf hiérarchique (HBI), conçue pour évaluer les correspondances possibles entre les images vidéo et les mots du texte, afin d’assurer une contrastation croisée sensible et interprétable. Pour permettre efficacement la mise en œuvre d’un jeu coopératif impliquant plusieurs images vidéo et plusieurs mots de texte, notre méthode regroupe d’abord les images vidéo (ou les mots de texte) originaux, puis calcule l’interaction de Banzhaf entre les jetons fusionnés. En empilant plusieurs modules de fusion de jetons, nous parvenons à modéliser des jeux coopératifs à différentes niveaux sémantiques. Des expérimentations étendues sur des benchmarks couramment utilisés pour la recherche vidéo-texte et la réponse à questions vidéo démontrent de manière convaincante l’efficacité de notre approche HBI. Plus encourageant encore, cette méthode peut également servir d’outil de visualisation pour améliorer la compréhension des interactions intermodales, ce qui pourrait avoir un impact durable sur la communauté scientifique. La page du projet est disponible à l’adresse suivante : https://jpthu17.github.io/HBI/.