Paroles : Renforcement de l'alignement et de la compréhension fine entre langage et vision par des objets visuels sensibles au sens

Les grands modèles linguistiques visuels (LVLM) ont fait preuve de capacités impressionnantes en mode zéro-shot dans divers scénarios de dialogue vision-langage. Toutefois, l'absence de détection fine des objets visuels limite la capacité du modèle à comprendre les détails des images, entraînant des hallucinations visuelles irréparables et des erreurs factuelles. Dans cet article, nous proposons Lyrics, un nouveau paradigme de pré-entraînement multi-modale et de fine-tuning par instruction, qui consolide l’alignement vision-langage à partir d’une collaboration cross-modale fine. S’appuyant sur la base de BLIP-2, Lyrics intègre des caractéristiques visuelles locales extraites par un module de raffinement visuel comprenant des modules de tagging d’image, de détection d’objets et de segmentation sémantique dans le Transformer de requête, tandis que, du côté texte, les entrées linguistiques sont enrichies par les coordonnées des boîtes englobantes et les étiquettes issues du module de raffinement visuel. Nous introduisons également un schéma d’entraînement en deux étapes, durant laquelle la phase de pré-entraînement comble l’écart modal grâce à des objectifs explicites et complets d’alignement vision-langage. Pendant la phase de fine-tuning par instruction, nous proposons une extraction de caractéristiques visuelles consciente du sens, une méthode essentielle permettant au modèle d’extraire des caractéristiques informatives à partir d’objets visuels concrets. Notre approche atteint des performances robustes sur 13 jeux de données couvrant diverses tâches vision-langage, et démontre des capacités prometteuses en compréhension, perception et conversation multi-modales dans 11 outils de benchmark basés sur des scénarios.