HyperAIHyperAI

Command Palette

Search for a command to run...

MMICL : Accroître le potentiel des modèles vision-langage grâce à l'apprentissage multi-modal in-context

Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han Baobao Chang

Résumé

Depuis la renaissance de l’apprentissage profond, les modèles vision-langage (VLM) améliorés par des modèles de langage à grande échelle (LLM) ont connu une croissance exponentielle en popularité. Toutefois, bien que les LLM puissent exploiter de vastes connaissances contextuelles et des informations de tâche grâce à l’apprentissage in-context, la plupart des VLM restent confrontés à des difficultés pour comprendre des prompts multi-modaux complexes comportant plusieurs images, ce qui limite leur efficacité dans les tâches vision-langage ultérieures. Dans ce travail, nous abordons cette limitation en proposant : 1) un nouveau cadre, le modèle vision-langage à apprentissage in-context multi-modale (MMICL), permettant aux VLM de traiter efficacement des entrées multi-modales ; 2) un schéma de contexte innovant visant à renforcer la capacité d’apprentissage in-context des VLM ; 3) la construction d’un jeu de données dédié à l’apprentissage in-context multi-modale (MIC), conçu pour améliorer la capacité des VLM à interpréter des prompts multi-modaux complexes. Nos expériences montrent que MMICL atteint un nouveau record d’état de l’art en mode zéro-shot sur une large gamme de tâches vision-langage générales, en particulier sur des benchmarks complexes tels que MME et MMBench. L’analyse démontre que MMICL surmonte efficacement le défi de la compréhension de prompts multi-modaux complexes et exhibe une capacité remarquable d’apprentissage in-context. En outre, nous observons que MMICL atténue efficacement le biais linguistique présent dans les VLM, un problème courant qui conduit fréquemment à des hallucinations lorsque les modèles sont confrontés à de longs contextes textuels. Le code, le jeu de données, l’outil de traitement du jeu de données et le modèle sont disponibles à l’adresse suivante : https://github.com/PKUnlp-icler/MIC


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp