DreamLLM : Compréhension et Création Multimodales Synergiques

Ce document présente DreamLLM, un cadre d'apprentissage qui réalise pour la première fois des Modèles de Langue Multimodaux à Grande Échelle (MLLM) dotés d'une synergie souvent négligée entre la compréhension et la création multimodales. DreamLLM repose sur deux principes fondamentaux. Le premier principe se concentre sur le modèle génératif des postérieurs linguistiques et visuels par échantillonnage direct dans l'espace multimodal brut. Cette approche évite les limitations et les pertes d'information inhérentes aux extracteurs de caractéristiques externes comme CLIP, permettant ainsi une compréhension multimodale plus approfondie. Le second principe favorise la génération de documents bruts entrelacés, modélisant à la fois le contenu textuel et visuel, ainsi que les mises en page non structurées. Cela permet à DreamLLM d'apprendre efficacement toutes les distributions conditionnelles, marginales et conjointes multimodales. En conséquence, DreamLLM est le premier MLLM capable de générer du contenu entrelacé libre forme. Des expériences exhaustives mettent en lumière les performances supérieures de DreamLLM en tant que généraliste multimodal zéro-shot, tirant parti de la synergie améliorée d'apprentissage. Page du projet : https://dreamllm.github.io.