HyperAIHyperAI

Command Palette

Search for a command to run...

Soyez-vous-même : adaptation par mélange de résolution pour les modèles linguistiques massifs multimodaux

Gen Luo Yiyi Zhou Yuxin Zhang Xiawu Zheng Xiaoshuai Sun Rongrong Ji

Résumé

Malgré les progrès remarquables réalisés, les modèles linguistiques à grande échelle multimodaux (MLLM) actuels restent inférieurs en reconnaissance visuelle fine. Contrairement aux travaux antérieurs, nous abordons ce problème sous l'angle de la résolution d'image, et révélons qu'une combinaison de caractéristiques visuelles à basse et haute résolution peut efficacement atténuer ce défaut. À partir de cette observation, nous proposons une méthode originale et efficace pour les MLLM, nommée Adaptation par Mélange de Résolutions (MRA). Plus précisément, MRA adopte deux voies visuelles distinctes pour les images de résolutions différentes, en intégrant l'information visuelle à haute résolution dans la voie à basse résolution grâce à des adaptateurs novateurs appelés MR-Adapters. Ce design réduit également considérablement la longueur de la séquence d'entrée des MLLM. Pour valider MRA, nous l'appliquons à un MLLM récent appelé LLaVA, donnant ainsi naissance au nouveau modèle LLaVA-HR. Nous menons des expériences approfondies sur 11 tâches vision-langage (VL), montrant que LLaVA-HR surpasser les MLLM existants sur 8 de ces tâches, par exemple avec une amélioration de +9,4 % sur TextVQA. Plus important encore, l'entraînement et l'inférence de LLaVA-HR restent efficaces grâce à MRA, avec par exemple 20 heures d'entraînement et une vitesse d'inférence 3 fois supérieure à celle de LLaVA-1.5. Le code source est disponible à l'adresse : https://github.com/luogen1996/LLaVA-HR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp