Étapes optimales de pas de Bellman pour la rectification des modèles de matching de flux

Le flow matching est un cadre puissant pour la génération de échantillons de haute qualité dans diverses applications, notamment la synthèse d’images. Toutefois, les exigences computationnelles importantes de ces modèles, en particulier durant les phases d’ajustement fin (finetuning) et d’échantillonnage, posent des défis majeurs dans les scénarios à ressources limitées. Ce papier introduit une nouvelle technique, appelée Bellman Optimal Stepsize Straightening (BOSS), destinée à la distillation de modèles génératifs basés sur le flow matching : elle vise spécifiquement une échantillonnage image efficace en quelques étapes tout en respectant une contrainte budgétaire en ressources computationnelles. Premièrement, cette méthode repose sur un algorithme de programmation dynamique qui optimise les pas de temps (stepsize) du réseau pré-entraîné. Ensuite, elle affine le réseau de vitesse afin qu’il corresponde aux pas de temps optimaux, dans le but de « droitifier » les trajectoires de génération. Des évaluations expérimentales étendues sur diverses tâches de génération d’images démontrent l’efficacité de BOSS en termes d’utilisation des ressources et de qualité des images générées. Nos résultats montrent que BOSS permet des gains significatifs en efficacité tout en maintenant une qualité d’échantillons compétitive, permettant ainsi de réduire efficacement l’écart entre les contraintes de ressources limitées et les exigences élevées des modèles génératifs basés sur le flow matching. Ce travail contribue également au développement responsable de l’intelligence artificielle en proposant un modèle génératif plus durable, réduisant ainsi les coûts computationnels et les empreintes environnementales. Le code associé est disponible à l’adresse suivante : https://github.com/nguyenngocbaocmt02/BOSS.