HyperAIHyperAI
il y a 14 jours

VideoGigaGAN : Vers une super-résolution vidéo à richesse détaillée

Yiran Xu, Taesung Park, Richard Zhang, Yang Zhou, Eli Shechtman, Feng Liu, Jia-Bin Huang, Difan Liu
VideoGigaGAN : Vers une super-résolution vidéo à richesse détaillée
Résumé

Les approches de super-résolution vidéo (VSR) ont démontré une cohérence temporelle impressionnante dans les vidéos redimensionnées. Toutefois, ces méthodes ont tendance à produire des résultats plus flous que leurs homologues basées sur les images, en raison de limites dans leur capacité générative. Cela soulève une question fondamentale : pouvons-nous étendre le succès d’un générateur d’image à haute résolution au cadre de la VSR tout en préservant la cohérence temporelle ? Nous introduisons VideoGigaGAN, un nouveau modèle génératif de super-résolution vidéo capable de produire des vidéos riches en détails de haute fréquence tout en maintenant une cohérence temporelle robuste. VideoGigaGAN s’appuie sur un générateur d’image à grande échelle — GigaGAN. L’extension directe de GigaGAN à une architecture vidéo par l’ajout de modules temporels entraîne toutefois un clignotement temporel sévère. Nous identifions plusieurs problèmes clés et proposons des techniques qui améliorent significativement la cohérence temporelle des vidéos redimensionnées. Nos expériences montrent qu’en comparaison avec les méthodes VSR antérieures, VideoGigaGAN génère des vidéos cohérentes dans le temps, tout en offrant des détails d’apparence plus fins. Nous validons l’efficacité de VideoGigaGAN en le comparant à des modèles VSR de pointe sur des jeux de données publics, en mettant en avant des résultats vidéo avec une super-résolution de facteur 8.

VideoGigaGAN : Vers une super-résolution vidéo à richesse détaillée | Articles de recherche récents | HyperAI