GenRecal : Génération après recalage des modèles langage-vision de grande à petite taille

Les récentes avancées dans les modèles de vision-langage (VLMs) ont tiré parti des grands modèles de langage (LLMs) pour atteindre des performances comparables à celles des systèmes à source fermée comme le GPT-4V. Cependant, le déploiement de ces modèles dans des scénarios réels, en particulier sur des appareils aux ressources limitées, reste un défi en raison de leurs importantes exigences computationnelles. Cette situation a suscité un intérêt croissant pour la distillation de connaissances issues de grands VLMs vers des versions plus petites et plus efficaces. Un défi majeur émerge ici du fait de la diversité des architectures VLM, qui reposent sur différents LLMs et utilisent des types de tokens variés, différant par la taille du vocabulaire, les divisions de tokens et l'ordre d'indexation des tokens. Pour répondre à ce défi lié à la limitation à un type spécifique de VLM, nous présentons Generation after Recalibration (GenRecal), un cadre novateur et polyvalent pour la distillation des VLMs. GenRecal intègre un Récalibrateur qui aligne et adapte les représentations de caractéristiques entre les VLMs hétérogènes, permettant ainsi un transfert efficace de connaissances entre différents types de VLMs. À travers une série d'expériences approfondies sur plusieurs benchmarks difficiles, nous montrons que GenRecal améliore considérablement les performances basiques, finissant par surpasser les grands modèles de vision-langage à source ouverte et fermée.