Command Palette
Search for a command to run...
UniLumos : Relumière rapide et unifiée d'images et de vidéos avec une rétroaction physiquement plausible
Ropeway Liu Hangjie Yuan Bo Dong Jiazheng Xing Jinwang Wang Rui Zhao Yan Xing Weihua Chen Fan Wang

Résumé
Le re-éclairage est une tâche essentielle, à la fois pour ses applications pratiques et sa valeur artistique. Les modèles de diffusion récents ont montré un fort potentiel en permettant des effets d’éclairage riches et contrôlables. Toutefois, comme ils sont généralement optimisés dans un espace latente sémantique, où la proximité ne garantit pas la correction physique dans l’espace visuel, ils produisent souvent des résultats irréalistes, tels que des reflets suréclairés, des ombres mal alignées ou des occlusions incorrectes. Pour y remédier, nous proposons UniLumos, un cadre unifié pour le re-éclairage d’images et de vidéos, qui intègre un retour d’information géométrique dans l’espace RGB au sein d’un modèle fondé sur l’appariement de flux. En supervisant le modèle à l’aide de cartes de profondeur et de cartes de normales extraites de ses sorties, nous alignons explicitement les effets d’éclairage avec la structure de la scène, améliorant ainsi la plausibilité physique. Toutefois, ce retour d’information nécessite des sorties de haute qualité pour une supervision efficace dans l’espace visuel, ce qui rend l’approche classique de débruitage en plusieurs étapes très coûteuse en termes de calcul. Pour atténuer ce problème, nous introduisons l’apprentissage par cohérence de trajectoire, permettant de maintenir une supervision efficace même dans des régimes d’entraînement à faible nombre d’étapes. Afin de permettre un contrôle et une supervision fins du re-éclairage, nous concevons un protocole d’annotation structuré à six dimensions, capturant les attributs fondamentaux de l’éclairage. Sur la base de ce protocole, nous proposons LumosBench, un benchmark déconnecté au niveau des attributs, évaluant la contrôlabilité de l’éclairage à l’aide de grands modèles vision-langage, ce qui permet une évaluation automatique et interprétable de la précision du re-éclairage selon chaque dimension. Des expériences étendues démontrent que UniLumos atteint un niveau d’excellence en matière de qualité de re-éclairage, avec une amélioration significative de la cohérence physique, tout en offrant un gain de vitesse de 20 fois pour le re-éclairage d’images et de vidéos. Le code est disponible à l’adresse suivante : https://github.com/alibaba-damo-academy/Lumos-Custom.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.