Forçage de récompense : génération efficace de vidéos en flux avec distillation par correspondance de distribution récompensée
Forçage de récompense : génération efficace de vidéos en flux avec distillation par correspondance de distribution récompensée

Résumé
La génération efficace de vidéos en flux est essentielle pour simuler des mondes interactifs et dynamiques. Les méthodes existantes distillent des modèles de diffusion vidéo à quelques étapes en utilisant une attention à fenêtre glissante, en utilisant les cadres initiaux comme tokens de puits (sink tokens) afin de préserver les performances d’attention et de réduire l’accumulation d’erreurs. Toutefois, les cadres vidéo deviennent excessivement dépendants de ces tokens statiques, entraînant une copie des cadres initiaux et une diminution des dynamiques de mouvement. Pour résoudre ce problème, nous introduisons Reward Forcing, un cadre novateur reposant sur deux innovations clés. Premièrement, nous proposons EMA-Sink, un mécanisme qui maintient des tokens de taille fixe initialement tirés des cadres initiaux et mis à jour continuellement par fusion des tokens évacués via une moyenne mobile exponentielle au fur et à mesure de leur sortie de la fenêtre glissante. Sans coût computationnel supplémentaire, les tokens EMA-Sink captent à la fois le contexte à long terme et les dynamiques récentes, empêchant ainsi la copie des cadres initiaux tout en préservant la cohérence à long terme. Deuxièmement, afin de mieux distiller les dynamiques de mouvement à partir des modèles enseignants, nous proposons une nouvelle méthode de distillation par correspondance de distribution récompensée (Rewarded Distribution Matching Distillation, Re-DMD). La correspondance de distribution classique traite tous les échantillons d’entraînement de manière équitable, limitant ainsi la capacité du modèle à privilégier le contenu dynamique. À la place, Re-DMD oriente la distribution de sortie du modèle vers des régions à haut rendement en privilégiant les échantillons présentant une plus grande dynamique, évaluée par un modèle vision-langage. Re-DMD améliore significativement la qualité du mouvement tout en préservant la fidélité des données. Nous présentons des expériences quantitatives et qualitatives démontrant que Reward Forcing atteint des performances de pointe sur des benchmarks standards tout en permettant la génération de vidéos en flux de haute qualité à 23,1 FPS sur une seule GPU H100.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.