HyperAIHyperAI
il y a 2 mois

Interpolation de Cadres à Haute Résolution par Diffusion en Cascade Basée sur des Patches

Hur, Junhwa ; Herrmann, Charles ; Saxena, Saurabh ; Kontkanen, Janne ; Lai, Wei-Sheng ; Shih, Yichang ; Rubinstein, Michael ; Fleet, David J. ; Sun, Deqing
Interpolation de Cadres à Haute Résolution par Diffusion en Cascade Basée sur des Patches
Résumé

Malgré les récentes avancées, les méthodes actuelles d'interpolation de cadres continuent à éprouver des difficultés pour traiter des entrées d'une résolution extrêmement élevée et gérer des cas complexes tels que les textures répétitives, les objets fins et les mouvements importants. Pour remédier à ces problèmes, nous présentons un modèle de diffusion pixel par pixel basé sur des patches pour l'interpolation de cadres haute résolution, appelé HiFI, qui se distingue dans ces scénarios tout en obtenant des performances compétitives sur les benchmarks standards. Les cascades, qui génèrent une série d'images de faible à haute résolution, peuvent aider considérablement aux mouvements importants ou complexes nécessitant à la fois un contexte global pour une solution grossière et un contexte détaillé pour une sortie haute résolution. Cependant, contrairement aux travaux précédents sur les modèles de diffusion en cascade qui effectuent la diffusion sur des résolutions de plus en plus grandes, nous utilisons un seul modèle qui effectue toujours la diffusion à la même résolution et augmente celle-ci en traitant des patches des entrées et de la solution précédente. Lors de l'inférence, cela réduit considérablement l'utilisation de la mémoire et permet à un seul modèle de résoudre à la fois l'interpolation de cadres (la tâche du modèle de base) et le redimensionnement spatial, ce qui économise également les coûts d'entraînement. HiFI excelle dans le traitement d'images haute résolution et de textures répétitives complexes nécessitant un contexte global, atteignant des performances comparables ou record sur divers benchmarks (Vimeo, Xiph, X-Test et SEPE-8K). Nous introduisons également un nouveau jeu de données, LaMoR, axé sur des cas particulièrement difficiles, où HiFI dépasse largement les autres modèles de référence. Veuillez consulter notre page projet pour visualiser les résultats vidéo : https://hifi-diffusion.github.io