HyperAIHyperAI
il y a 11 jours

InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution

Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution
Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont connu des avancées significatives récemment. Toutefois, des défis subsistent quant à la reconnaissance précise et à la compréhension des détails complexes dans les images à haute résolution. Malgré leur importance fondamentale pour le développement de MLLM robustes, ce domaine reste sous-étudié. Pour relever ce défi, notre travail présente InfiMM-HD, une nouvelle architecture spécifiquement conçue pour traiter des images de différentes résolutions avec un surcroît de calcul minimal. Cette innovation permet d’étendre efficacement les MLLM à des capacités de traitement à haute résolution. InfiMM-HD intègre un module d’attention croisée et des fenêtres visuelles afin de réduire les coûts computationnels. En combinant cette architecture avec une chaîne de formation en quatre étapes, notre modèle parvient à améliorer sa perception visuelle de manière efficace et économique. Une étude empirique met en évidence la robustesse et l’efficacité d’InfiMM-HD, ouvrant ainsi de nouvelles voies d’exploration dans ce domaine. Le code et les modèles sont disponibles à l’adresse suivante : https://huggingface.co/Infi-MM/infimm-hd

InfiMM-HD : Un pas en avant vers la compréhension multimodale à haute résolution | Articles de recherche récents | HyperAI