il y a 8 mois

Résumé

Les grands modèles de langage ont démontré des capacités universelles impressionnantes dans une large gamme de tâches ouvertes et ont étendu leur utilité pour englober les conversations multimodales. Cependant, les méthodes existantes rencontrent des défis pour traiter efficacement à la fois la compréhension des images et des vidéos, en particulier avec un nombre limité de jetons visuels. Dans ce travail, nous introduisons Chat-UniVi, un modèle vision-langage unifié capable de comprendre et d'engager des conversations impliquant des images et des vidéos grâce à une représentation visuelle unifiée. Plus précisément, nous utilisons un ensemble de jetons visuels dynamiques pour représenter uniformément les images et les vidéos. Ce cadre de représentation permet au modèle d'utiliser efficacement un nombre limité de jetons visuels pour capturer simultanément les détails spatiaux nécessaires aux images et les relations temporelles complètes requises pour les vidéos. De plus, nous exploitons une représentation multiscale, ce qui permet au modèle de percevoir à la fois les concepts sémantiques de haut niveau et les détails visuels de bas niveau. Il est notable que Chat-UniVi est formé sur un jeu de données mixte contenant à la fois des images et des vidéos, ce qui lui permet d'être appliqué directement à des tâches impliquant ces deux médias sans nécessiter aucune modification. Des résultats expérimentaux approfondis montrent que Chat-UniVi surpasse constamment même les méthodes existantes conçues exclusivement pour l'une ou l'autre des modalités (images ou vidéos). Le code est disponible sur https://github.com/PKU-YuanGroup/Chat-UniVi.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Chat-UniVi : Représentation visuelle unifiée dotant les grands modèles de langage de la compréhension des images et des vidéos

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Chat-UniVi : Représentation visuelle unifiée dotant les grands modèles de langage de la compréhension des images et des vidéos

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Chat-UniVi : Représentation visuelle unifiée dotant les grands modèles de langage de la compréhension des images et des vidéos

Peng Jin Ryuichi Takanobu Wancai Zhang Xiaochun Cao Li Yuan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters