HyperAIHyperAI
il y a 11 jours

LLaVA-UHD : un LMM perçant tout rapport d'aspect et des images haute résolution

Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
LLaVA-UHD : un LMM perçant tout rapport d'aspect et des images haute résolution
Résumé

L’encodage visuel constitue la base des grands modèles multimodaux (LMM) pour la compréhension du monde visuel. Les LMM classiques traitent les images à des tailles fixes et à une résolution limitée, tandis que les recherches récentes dans ce domaine restent limitées en adaptabilité, en efficacité et même en correction. Dans ce travail, nous prenons d’abord GPT-4V et LLaVA-1.5 comme exemples représentatifs, afin d’exposer des défauts systématiques inhérents à leur stratégie d’encodage visuel. Pour relever ces défis, nous proposons LLaVA-UHD, un grand modèle multimodal capable de percevoir efficacement des images à tout rapport d’aspect et à haute résolution. LLaVA-UHD repose sur trois composants clés : (1) une stratégie de modularisation d’image qui divise les images à résolution native en morceaux de taille variable pour un encodage efficace et extensible, (2) un module de compression qui condense davantage les jetons d’image issus des encodeurs visuels, et (3) un schéma spatial permettant d’organiser les jetons de morceaux pour les modèles linguistiques à grande échelle (LLM). Des expériences approfondies montrent que LLaVA-UHD surpasser des LMM établis entraînés avec 2 à 3 ordres de grandeur plus de données sur 9 benchmarks. Notamment, notre modèle basé sur LLaVA-1.5 (336×336) supporte des images 6 fois plus grandes (soit 672×1088) en utilisant uniquement 94 % des ressources de calcul pour l’inférence, et obtient une amélioration de 6,4 points de précision sur TextVQA. En outre, le modèle peut être entraîné de manière efficace dans un cadre académique, en seulement 23 heures sur 8 GPU A100 (contre 26 heures pour LLaVA-1.5). Nous mettons les données et le code à disposition publiquement à l’adresse suivante : https://github.com/thunlp/LLaVA-UHD.

LLaVA-UHD : un LMM perçant tout rapport d'aspect et des images haute résolution | Articles de recherche récents | HyperAI