Command Palette
Search for a command to run...
Diffusion fovéale : génération efficace d'images et de vidéos à adaptation spatiale
Diffusion fovéale : génération efficace d'images et de vidéos à adaptation spatiale
Brian Chao Lior Yariv Howard Xiao Gordon Wetzstein
Résumé
Les modèles de diffusion et de flow matching ont débloqué des capacités sans précédent dans la création de contenu créatif, telles que la génération d'images interactives et de vidéos en flux continu. Cependant, la demande croissante de résolutions, de fréquences d'images et de longueurs de contexte plus élevées rend la génération efficace de plus en plus complexe, la complexité computationnelle augmentant de manière quadratique avec le nombre de tokens générés. Notre travail vise à optimiser l'efficacité du processus de génération dans des scénarios où la position du regard de l'utilisateur est connue ou peut être estimée, par exemple grâce au suivi oculaire (eye tracking). Dans ces contextes, nous exploitons l'acuité visuelle dépendante de l'excentricité : tandis qu'un utilisateur perçoit des informations visuelles de très haute résolution dans une petite région entourant son point de fixation (la région fovéale), sa capacité à discerner les détails se dégrade rapidement dans la périphérie du champ visuel. Notre approche commence par l'utilisation d'un masque modélisant la résolution fovéalisée pour allouer les tokens de manière non uniforme, en attribuant une densité de tokens plus élevée aux régions fovéales et une densité plus faible aux régions périphériques. Une image ou une vidéo est ainsi générée dans un cadre de tokens à résolution mixte, produisant des résultats perceptuellement indiscernables d'une génération en pleine résolution, tout en réduisant drastiquement le nombre de tokens et le temps de génération. À cette fin, nous avons développé un mécanisme rigoureux permettant de construire des tokens à résolution mixte directement à partir de données haute résolution, autorisant l'entraînement postérieur d'un modèle de diffusion fovéalisé à partir d'un modèle de base existant, tout en maintenant la cohérence du contenu à travers les différentes résolutions. Nous validons notre approche par une analyse approfondie et une étude utilisateur soigneusement conçue, démontrant l'efficacité de la fovéalisation en tant qu'axe pratique et évolutif pour une génération efficiente.