il y a 11 jours

Soyez-vous-même : adaptation par mélange de résolution pour les modèles linguistiques massifs multimodaux

Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

Résumé

Malgré les progrès remarquables réalisés, les modèles linguistiques à grande échelle multimodaux (MLLM) actuels restent inférieurs en reconnaissance visuelle fine. Contrairement aux travaux antérieurs, nous abordons ce problème sous l'angle de la résolution d'image, et révélons qu'une combinaison de caractéristiques visuelles à basse et haute résolution peut efficacement atténuer ce défaut. À partir de cette observation, nous proposons une méthode originale et efficace pour les MLLM, nommée Adaptation par Mélange de Résolutions (MRA). Plus précisément, MRA adopte deux voies visuelles distinctes pour les images de résolutions différentes, en intégrant l'information visuelle à haute résolution dans la voie à basse résolution grâce à des adaptateurs novateurs appelés MR-Adapters. Ce design réduit également considérablement la longueur de la séquence d'entrée des MLLM. Pour valider MRA, nous l'appliquons à un MLLM récent appelé LLaVA, donnant ainsi naissance au nouveau modèle LLaVA-HR. Nous menons des expériences approfondies sur 11 tâches vision-langage (VL), montrant que LLaVA-HR surpasser les MLLM existants sur 8 de ces tâches, par exemple avec une amélioration de +9,4 % sur TextVQA. Plus important encore, l'entraînement et l'inférence de LLaVA-HR restent efficaces grâce à MRA, avec par exemple 20 heures d'entraînement et une vitesse d'inférence 3 fois supérieure à celle de LLaVA-1.5. Le code source est disponible à l'adresse : https://github.com/luogen1996/LLaVA-HR.