DreamLLM: Synergistische multimodale Verstehens- und Erzeugungsfähigkeiten

Dieses Papier stellt DreamLLM vor, ein Lernframework, das erstmals vielseitige multimodale Large Language Models (MLLMs) ermöglicht, die von der oft übersehenen Synergie zwischen multimodaler Wahrnehmung und Erstellung profitieren. DreamLLM basiert auf zwei grundlegenden Prinzipien. Das erste Prinzip konzentriert sich auf die generative Modellierung sowohl von Sprach- als auch von Bildnachfolgern durch direktes Sampling im rohen multimodalen Raum. Dieser Ansatz umgeht die Einschränkungen und Informationsverluste, die externen Feature-Extraktoren wie CLIP inhärent sind, und ermöglicht eine gründlichere multimodale Verständnis. Das zweite Prinzip fördert die Generierung roher, ineinandergeschachtelter Dokumente, wobei sowohl Text- als auch Bildinhalte sowie unstrukturierte Layouts modelliert werden. Dies ermöglicht es DreamLLM, alle bedingten, marginalen und gemeinsamen multimodalen Verteilungen effektiv zu lernen. Als Ergebnis ist DreamLLM das erste MLLM, das fähig ist, freiformiges ineinandergeschachteltes Content zu generieren. Umfassende Experimente unterstreichen die überlegene Leistungsfähigkeit von DreamLLM als Zero-Shot-Multimodal-Generalist, der von der verbesserten Lernsynergie profitiert. Projektseite: https://dreamllm.github.io.