Fantôme du Latent pour les Modèles Linguistiques et Visuels de Grande Taille

Le succès du réglage par instruction visuelle a accéléré le développement des grands modèles linguistiques et visuels (LLVMs). En suivant les lois d'échelle des grands modèles linguistiques réglés par instruction (LLMs), les LLVMs ont progressivement augmenté leur taille, atteignant respectivement 26 milliards, 34 milliards et même 80 milliards de paramètres. Bien que cette croissance de la taille des modèles ait permis des gains significatifs en performance, elle exige des ressources matérielles considérables tant pour l'entraînement que pour l'inférence. En conséquence, il existe naturellement un besoin fort de LLVMs efficaces capables d'atteindre les performances des modèles plus grands tout en étant plus petits en taille. Pour répondre à cette exigence, nous présentons une nouvelle famille de LLVMs efficaces, Phantom, dont les tailles varient entre 0,5 milliard, 1,8 milliard, 3,8 milliards et 7 milliards de paramètres, et qui renforce de manière significative les capacités d'apprentissage dans des structures restreintes. En augmentant temporairement la dimension latente des couches cachées durant l'attention multi-têtes auto-régressive (MHSA), nous permettons aux LLVMs de « regarder » et de « comprendre » une quantité bien plus importante de connaissances vision-langage au niveau latent, sans augmenter de manière substantielle la taille physique du modèle. Pour tirer pleinement parti de cet avantage, nous introduisons une optimisation baptisée Phantom Optimization (PO), combinant à la fois le fine-tuning supervisé autoregressif (SFT) et une approche inspirée de la direct preference optimization (DPO), permettant ainsi de suivre efficacement les réponses correctes tout en éliminant les réponses erronées ou ambigües. Phantom surpasse de nombreux LLVMs open- et closed-source plus volumineux, s'imposant ainsi comme une solution phare dans le paysage des LLVMs efficaces.