Command Palette
Search for a command to run...
Lumina-DiMOO : un grand modèle linguistique à diffusion omnimode pour la génération et la compréhension multi-modale

Résumé
Nous présentons Lumina-DiMOO, un modèle fondamental open source pour une génération et une compréhension multi-modales fluides. Lumina-DiMOO se distingue des modèles unifiés antérieurs en utilisant un modèle de diffusion entièrement discret pour traiter les entrées et sorties dans diverses modalités. Cette approche innovante permet à Lumina-DiMOO d’atteindre une efficacité d’échantillonnage supérieure par rapport aux paradigmes autoregressifs (AR) ou hybrides AR-Diffusion précédents, tout en soutenant habilement une large gamme de tâches multi-modales, notamment la génération d’images à partir de texte, la génération d’images à partir d’images (par exemple, édition d’images, génération pilotée par sujet, complétion d’images, etc.) ainsi que la compréhension d’images. Lumina-DiMOO atteint des performances de pointe sur plusieurs benchmarks, dépassant les modèles unifiés multi-modaux open source existants. Afin de stimuler les progrès futurs dans les domaines de la recherche multi-modale et des modèles de diffusion discrets, nous mettons à disposition du public notre code source et les points de contrôle (checkpoints). Page du projet : https://synbol.github.io/Lumina-DiMOO.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.