HyperAIHyperAI

Command Palette

Search for a command to run...

InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution

Haogeng Liu Quanzeng You Xiaotian Han Yiqi Wang Bohan Zhai Yongfei Liu Yunzhe Tao Huaibo Huang Ran He Hongxia Yang

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont connu des avancées significatives récemment. Toutefois, des défis subsistent quant à la reconnaissance précise et à la compréhension des détails complexes dans les images à haute résolution. Malgré leur importance fondamentale pour le développement de MLLM robustes, ce domaine reste sous-étudié. Pour relever ce défi, notre travail présente InfiMM-HD, une nouvelle architecture spécifiquement conçue pour traiter des images de différentes résolutions avec un surcroît de calcul minimal. Cette innovation permet d’étendre efficacement les MLLM à des capacités de traitement à haute résolution. InfiMM-HD intègre un module d’attention croisée et des fenêtres visuelles afin de réduire les coûts computationnels. En combinant cette architecture avec une chaîne de formation en quatre étapes, notre modèle parvient à améliorer sa perception visuelle de manière efficace et économique. Une étude empirique met en évidence la robustesse et l’efficacité d’InfiMM-HD, ouvrant ainsi de nouvelles voies d’exploration dans ce domaine. Le code et les modèles sont disponibles à l’adresse suivante : https://huggingface.co/Infi-MM/infimm-hd


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp