ConvLLaVA : Des squelettes hiérarchiques comme encodeur visuel pour les grands modèles multimodaux

Les grands modèles multimodaux à haute résolution (LMM) font face à des défis liés au nombre excessif de tokens visuels et à une complexité visuelle quadratique. Les LMM actuels à haute résolution parviennent à atténuer la complexité quadratique, mais continuent de générer un trop grand nombre de tokens visuels. Or, la redondance de ces tokens constitue le problème central, car elle entraîne une consommation computationnelle significativement plus élevée. Pour atténuer ce problème, nous proposons ConvLLaVA, un modèle qui remplace le encodeur visuel basé sur Vision Transformer (ViT) par ConvNeXt, un architecture hiérarchique. ConvLLaVA compresse les images à haute résolution en caractéristiques visuelles riches, empêchant efficacement la génération d’un nombre excessif de tokens visuels. Pour renforcer les performances de ConvLLaVA, nous introduisons deux optimisations clés. Étant donné que le modèle ConvNeXt pré-entraîné à faible résolution se comporte médiocrement lorsqu’il est appliqué directement à des images à haute résolution, nous l’adaptons afin de réduire cet écart. Par ailleurs, comme le taux de compression initial de ConvNeXt est insuffisant pour des entrées à très haute résolution, nous entraînons une étape supplémentaire permettant une compression encore plus poussée des tokens visuels, réduisant ainsi la redondance. Ces optimisations permettent à ConvLLaVA de prendre en charge des images de résolution 1536×1536 tout en générant uniquement 576 tokens visuels, tout en étant capable de traiter des images de proportions arbitraires. Les résultats expérimentaux montrent que notre méthode atteint des performances compétitives par rapport aux modèles de pointe sur les benchmarks courants. La série de modèles ConvLLaVA est disponible publiquement à l’adresse suivante : https://github.com/alibaba/conv-llava.