Modèles de transition : Repenser l'objectif d'apprentissage génératif

Un dilemme fondamental persiste dans les modèles génératifs : les modèles itératifs à diffusion atteignent une fidélité remarquable, mais au prix d’un coût computationnel élevé, tandis que les alternatives efficaces à quelques étapes sont freinées par un plafond de qualité rigide. Ce conflit entre le nombre d’étapes de génération et la qualité du résultat découle d’objectifs d’entraînement restrictifs, qui se concentrent exclusivement soit sur des dynamiques infinitésimales (équations différentielles ordinaires de type PF), soit sur une prédiction directe de l’état final. Nous relevons ce défi en introduisant une équation exacte de dynamique en temps continu, qui définit analytiquement les transitions d’état sur tout intervalle de temps fini. Ceci donne naissance à un nouveau paradigme génératif, les Modèles de Transition (Transition Models, TiM), capables d’adapter leurs transitions à un nombre arbitraire d’étapes, permettant ainsi une exploration fluide de la trajectoire générative — allant de sauts simples à une raffinement fin à plusieurs étapes. Malgré un nombre réduit de paramètres (865 M), TiM atteint des performances de pointe, dépassant des modèles leaders tels que SD3.5 (8 B de paramètres) et FLUX.1 (12 B de paramètres) pour toutes les valeurs d’étapes évaluées. De façon significative, contrairement aux générateurs à peu d’étapes précédents, TiM montre une amélioration monotone de la qualité avec l’augmentation du budget d’échantillonnage. En outre, en utilisant notre stratégie de résolution native, TiM produit une fidélité exceptionnelle à des résolutions allant jusqu’à 4096×4096.