JanusFlow : Harmoniser la régression autodéductive et le flux rectifié pour une compréhension et une génération multimodales unifiées

Nous présentons JanusFlow, un cadre puissant qui unifie la compréhension et la génération d’images au sein d’un seul modèle. JanusFlow introduit une architecture minimaliste qui intègre les modèles linguistiques autoregressifs avec le flow rectifié, une méthode de pointe en modélisation générative. Notre résultat clé démontre que le flow rectifié peut être entraîné de manière directe dans le cadre des grands modèles linguistiques, sans nécessiter de modifications architecturales complexes. Pour améliorer davantage les performances de notre modèle unifié, nous adoptons deux stratégies essentielles : (i) découpler les encodeurs de compréhension et de génération, et (ii) aligner leurs représentations durant l’entraînement unifié. Des expériences étendues montrent que JanusFlow atteint des performances comparables ou supérieures à celles des modèles spécialisés dans leurs domaines respectifs, tout en surpassant de manière significative les approches unifiées existantes sur des benchmarks standards. Ce travail constitue une avancée vers des modèles vision-langage plus efficaces et polyvalents.