HyperAIHyperAI
il y a 2 mois

Chat-UniVi : Représentation visuelle unifiée dotant les grands modèles de langage de la compréhension des images et des vidéos

Peng Jin; Ryuichi Takanobu; Wancai Zhang; Xiaochun Cao; Li Yuan
Chat-UniVi : Représentation visuelle unifiée dotant les grands modèles de langage de la compréhension des images et des vidéos
Résumé

Les grands modèles de langage ont démontré des capacités universelles impressionnantes dans une large gamme de tâches ouvertes et ont étendu leur utilité pour englober les conversations multimodales. Cependant, les méthodes existantes rencontrent des défis pour traiter efficacement à la fois la compréhension des images et des vidéos, en particulier avec un nombre limité de jetons visuels. Dans ce travail, nous introduisons Chat-UniVi, un modèle vision-langage unifié capable de comprendre et d'engager des conversations impliquant des images et des vidéos grâce à une représentation visuelle unifiée. Plus précisément, nous utilisons un ensemble de jetons visuels dynamiques pour représenter uniformément les images et les vidéos. Ce cadre de représentation permet au modèle d'utiliser efficacement un nombre limité de jetons visuels pour capturer simultanément les détails spatiaux nécessaires aux images et les relations temporelles complètes requises pour les vidéos. De plus, nous exploitons une représentation multiscale, ce qui permet au modèle de percevoir à la fois les concepts sémantiques de haut niveau et les détails visuels de bas niveau. Il est notable que Chat-UniVi est formé sur un jeu de données mixte contenant à la fois des images et des vidéos, ce qui lui permet d'être appliqué directement à des tâches impliquant ces deux médias sans nécessiter aucune modification. Des résultats expérimentaux approfondis montrent que Chat-UniVi surpasse constamment même les méthodes existantes conçues exclusivement pour l'une ou l'autre des modalités (images ou vidéos). Le code est disponible sur https://github.com/PKU-YuanGroup/Chat-UniVi.

Chat-UniVi : Représentation visuelle unifiée dotant les grands modèles de langage de la compréhension des images et des vidéos | Articles de recherche récents | HyperAI