Command Palette
Search for a command to run...
Aligner directement l'intégrale de la trajectoire de diffusion avec les préférences humaines à granularité fine
Xiangwei Shen Zhimin Li Zhantao Yang Shiyi Zhang et al

Résumé
Des études récentes ont démontré l'efficacité de l'alignement direct des modèles de diffusion avec les préférences humaines à l'aide d'une récompense différentiable. Toutefois, ces approches soulèvent deux défis majeurs : (1) elles reposent sur un débruitage en plusieurs étapes impliquant le calcul de gradients pour l'évaluation de la récompense, ce qui est très coûteux en termes de calcul, limitant ainsi l'optimisation à un nombre restreint d'étapes de diffusion ; (2) elles nécessitent souvent une adaptation continue en mode hors ligne du modèle de récompense afin d'obtenir une qualité esthétique souhaitée, telle que la photoréalisme ou des effets d'éclairage précis. Pour surmonter la limitation liée au débruitage en plusieurs étapes, nous proposons Direct-Align, une méthode qui pré-définit un prior de bruit permettant de restaurer efficacement les images d'origine à partir de n'importe quel instant via une interpolation, en exploitant l'équation selon laquelle les états de diffusion sont des interpolations entre le bruit et les images cibles. Cette approche évite efficacement l'over-optimisation aux étapes tardives. En outre, nous introduisons une optimisation des préférences relatives sémantiques (SRPO), dans laquelle les récompenses sont formulées comme des signaux conditionnés par le texte. Cette approche permet une adaptation en ligne des récompenses en réponse à l'augmentation de prompts positifs ou négatifs, réduisant ainsi la dépendance à une fine-tuning hors ligne du modèle de récompense. En affinant le modèle FLUX grâce à un débruitage optimisé et une ajustement en ligne des récompenses, nous améliorons sa réalisme et sa qualité esthétique évalués par les humains de plus de 3 fois.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.