Vision-Langage-Vision Auto-Encodeur : Distillation de Connaissances Évolutives à Partir des Modèles de Diffusion

La construction de modèles Vision-Langage (VLM) de pointe dotés de capacités de légendage robustes nécessite généralement un entraînement sur des milliards de paires image-texte de haute qualité, ce qui demande des millions d'heures de calcul sur GPU. Cet article introduit le cadre d'auto-encodeur Vision-Langage-Vision (VLV), qui utilise stratégiquement des composants préentraînés clés : un encodeur visuel, le décodeur d'un modèle de diffusion Texte-Image (T2I), et ultérieurement, un grand modèle linguistique (LLM). Plus précisément, nous établissons une bouteille d'étranglement informationnelle en régularisant l'espace de représentation du langage, ce qui est réalisé en gelant le décodeur du modèle de diffusion T2I préentraîné. Notre pipeline VLV distille efficacement les connaissances du modèle de diffusion conditionné au texte à l'aide d'embeddings continus, démontrant une compréhension sémantique complète par le biais de reconstructions de haute qualité. De plus, en affinant un LLM préentraîné pour décoder les représentations intermédiaires du langage en descriptions détaillées, nous construisons un légendeur d'avant-garde (SoTA) comparable aux modèles leaders tels que GPT-4o et Gemini 2.0 Flash. Notre méthode montre une efficacité coûts-bénéfices exceptionnelle et réduit considérablement les besoins en données ; elle utilise principalement des images monomodales pour l'entraînement et maximise l'utilité des modèles préentraînés existants (encodeur d'image, modèle de diffusion T2I et LLM), évitant ainsi la nécessité d'énormes jeux de données image-texte appariés, tout en maintenant les coûts totaux d'entraînement sous 1 000 USD.