il y a 6 mois

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont connu des avancées significatives récemment. Toutefois, des défis subsistent quant à la reconnaissance précise et à la compréhension des détails complexes dans les images à haute résolution. Malgré leur importance fondamentale pour le développement de MLLM robustes, ce domaine reste sous-étudié. Pour relever ce défi, notre travail présente InfiMM-HD, une nouvelle architecture spécifiquement conçue pour traiter des images de différentes résolutions avec un surcroît de calcul minimal. Cette innovation permet d’étendre efficacement les MLLM à des capacités de traitement à haute résolution. InfiMM-HD intègre un module d’attention croisée et des fenêtres visuelles afin de réduire les coûts computationnels. En combinant cette architecture avec une chaîne de formation en quatre étapes, notre modèle parvient à améliorer sa perception visuelle de manière efficace et économique. Une étude empirique met en évidence la robustesse et l’efficacité d’InfiMM-HD, ouvrant ainsi de nouvelles voies d’exploration dans ce domaine. Le code et les modèles sont disponibles à l’adresse suivante : https://huggingface.co/Infi-MM/infimm-hd

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Représentation Multimodale

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters