HyperAI

Sur La Base De 13 000 Clips Vidéo, L'équipe Shi Boxin De L'université De Pékin Et L'informatique Bayésienne Ont Proposé Un Cadre De Génération De Vidéo Panoramique PanoWan, Qui Prend En Compte Le Montage Vidéo À Échantillon Zéro.

特色图像

La vidéo panoramique est l'une des formes de contenu les plus importantes de la réalité virtuelle (RV). Inspirée du monde réel, elle renforce le sentiment d'implication et l'expérience interactive de l'utilisateur grâce à une perspective immersive à 360°. Elle constitue un support essentiel au développement de la RV en termes de production de contenu, de mise en œuvre industrielle et de popularisation auprès des utilisateurs.La production vidéo panoramique actuelle repose généralement sur un équipement professionnel, ce qui limite considérablement l’étendue de la création de contenu.

Ces dernières années, avec le développement rapide des modèles vidéo génératifs, les chercheurs ont également commencé à essayer de les appliquer au domaine des vidéos panoramiques, abaissant ainsi le seuil de création de contenu panoramique, favorisant l'expansion à grande échelle du contenu VR et contribuant même à construire un monde virtuel interactif hautement immersif.

Cependant, il n’est pas facile de transférer efficacement les modèles de génération vidéo traditionnels vers le domaine panoramique.Le principal défi est que les vidéos panoramiques et les vidéos ordinaires présentent des différences fondamentales dans la représentation des caractéristiques spatiales.Par exemple, la projection rectangulaire équidistante entraîne une distorsion de l'image dans le sens de la latitude, et le raccordement des limites longitudinales entraîne une discontinuité visuelle et sémantique. Par conséquent, même si la technologie actuelle de conversion texte-vidéo obtient d'excellents résultats, il est difficile de garantir la cohérence de la disposition spatiale des éléments de la scène lors du processus de génération de vidéos panoramiques.

Pour relever ce défi majeur,Le laboratoire d'intelligence des caméras de l'université de Pékin (équipe de Shi Boxin) et OpenBayes Bayesian Computing ont lancé conjointement PanoWan, un cadre de génération de vidéos panoramiques guidées par texte.Cette méthode utilise une architecture modulaire très simple et efficace pour transférer en douceur les priors génératifs du modèle texte-vidéo pré-entraîné au champ panoramique. À cette fin, elle conçoit une technologie d'échantillonnage sensible à la latitude afin de réduire efficacement la distorsion de l'image causée par la projection rectangulaire équidistante ; parallèlement, grâce à la stratégie de débruitage sémantique par rotation et de décodage pixel par pixel avec remplissage des limites, elle résout le problème d'incohérence sémantique visuelle à la limite de longitude.

De plus, afin de former efficacement le modèle,L'équipe de recherche a spécialement construit un ensemble de données vidéo panoramiques à grande échelle et de haute qualité, PanoVid.L'ensemble de données contient plus de 13 000 clips vidéo avec des descriptions textuelles, totalisant près de 1 000 heures, couvrant une variété de scènes telles que des paysages naturels, des scènes de rue urbaines et des activités humaines.

Les résultats expérimentaux montrent pleinement quePanoWan atteint non seulement les meilleures performances actuelles dans la tâche de génération de vidéos panoramiques à partir de texte, mais démontre également de puissantes capacités d'édition vidéo à zéro prise de vue.Sans formation supplémentaire, il peut gérer plusieurs scénarios pratiques tels que l'amélioration de la super-résolution vidéo panoramique, l'édition sémantique et l'extension du contenu vidéo.

L'article de recherche connexe « PanoWan : Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms » a été publié sur arXiv.

Pour plus d'exemples, visitez la page d'accueil du projet :
https://panowan.variantconst.com/

Ensemble de données vidéo panoramiques à grande échelle PanoVid

Le manque de jeux de données appariés a toujours été l'un des principaux obstacles à l'amélioration des performances des modèles de génération de vidéos panoramiques. Pour résoudre ce problème,L'équipe de recherche a construit un ensemble de données vidéo panoramiques à grande échelle, sémantiquement équilibré, diversifié en termes de scènes et de haute qualité, PanoVid.Cet ensemble de données rassemble plusieurs ressources vidéo panoramiques existantes, notamment 360-1M, 360+x, Imagine360, WEB360, Panonut360, Miraikan 360-degree Video Dataset et des ensembles de données vidéo VR immersives publics.

Après la collecte initiale, l'équipe de recherche a utilisé le modèle Qwen-2.5-VL pour générer automatiquement des descriptions textuelles de haute qualité pour les vidéos et les a catégorisées, ne conservant que les vidéos en projection équirectangulaire (PRE). Par la suite, afin d'éviter la duplication de contenu, l'équipe a adopté une stratégie de déduplication basée sur la similarité des descriptions et a procédé à un filtrage rigoureux des vidéos en termes de fluidité du flux optique et de scores esthétiques, ne conservant que les clips de haute qualité dans chaque catégorie.

Après cette série de procédures de traitement rigoureuses,L'ensemble de données PanoVid contient finalement plus de 13 000 clips vidéo.La durée totale est d'environ 944 heures, couvrant une variété de scènes, notamment des paysages, des scènes de rue et des personnes.

Exemple d'ensemble de données

Points forts techniques de PanoWan : se concentrer sur la latitude et la longitude

PanoWan utilise le même cadre de formation vidéo que le modèle Wan 2.1.L'objectif est de migrer le modèle de génération vidéo vers le champ panoramique avec un minimum de modifications, tout en conservant au maximum les priors de génération du modèle original. Pour résoudre le problème de distorsion vidéo panoramique causé par le format ERP,L'équipe de recherche travaille principalement à partir de deux niveaux : la latitude et la longitude.

dans,Dans le sens de la latitude, PanoWan utilise l'échantillonnage sensible à la latitude (LAS) pour atténuer le problème de distorsion de la latitude dans les régions polaires.Cette méthode reconfigure la distribution du bruit pour qu'elle corresponde plus étroitement aux caractéristiques de fréquence réelles de la sphère, réduisant ainsi efficacement l'étirement et la distorsion de l'image dans la direction latitudinale.

Direction de longitude, pour résoudre le problème de discontinuité visuelle et sémantique aux limites gauche et droite des résultats générés.PanoWan a proposé le débruitage sémantique rotatif (RSD) et le décodage pixel par pixel rembourré (PPD).Le premier répartit uniformément l'erreur de couture sur différentes longitudes grâce à des opérations de rotation dans l'espace latent, réduisant considérablement l'incohérence des transitions sémantiques ; le second élargit le contexte de la zone de couture, permettant au décodeur de prendre en compte davantage d'informations en dehors de la limite pendant le processus de décodage, évitant ainsi efficacement le problème de segmentation des limites au niveau des pixels.

La figure ci-dessous utilise une expérience d'ablation pour démontrer intuitivement l'efficacité du mécanisme de latitude et de longitude proposé dans ce travail. Le coin supérieur gauche de l'image montre qu'après l'utilisation de la méthode d'échantillonnage tenant compte de la latitude, les lignes du plafond et de la bande lumineuse, initialement sujettes à une distorsion évidente, deviennent droites et naturelles dans la vue en perspective ; et la méthode complète, présentée dans le coin inférieur droit, combine le débruitage sémantique par rotation et le décodage pixel par pixel du remplissage des limites pour éliminer avec succès la discontinuité de la zone limite de l'image, et la transition est fluide et naturelle.

Affichage de l'effet PanoWan

Voici d'abord la vidéo panoramique Vincent la plus basique. Regardons l'effet sans plus attendre.

Invite : Vue panoramique d'un volcan actif crachant des panaches de fumée sur un ciel de coucher de soleil flamboyant. Au premier plan, des montagnes majestueuses sont enveloppées de nuages brumeux, créant un contraste saisissant. La caméra effectue un panoramique lent, capturant l'immensité et la beauté impressionnante de la nature.

Invite : Vue panoramique d'une métropole cyberpunk baignée de néons. Une course-poursuite effrénée se déroule sur une autoroute à plusieurs niveaux. Une hypercar noire mate et élégante file à toute allure à travers la jungle urbaine, frôlant des gratte-ciels colossaux. Des écrans lumineux illuminent la scène de publicités au néon vibrantes. La caméra capture l'action sous un angle bas spectaculaire, suivant la vitesse vertigineuse de la voiture.

Sujet : Dans un Starbucks animé, une jeune femme est assise près de la fenêtre, sirotant un grand latte, plongée dans un épais roman. La lumière du soleil filtre à travers, projetant des lueurs chaudes sur son visage concentré. Autour d'elle, un intérieur en bois chic, l'arôme du café fraîchement moulu et les bavardages des clients. Plan moyen, saisissant l'ambiance animée du café.

PanoWan peut également être utilisé sans nouvelle formation.Les applications Zero-shot incluent la génération de vidéos longues, la super-résolution, l'édition sémantique et les tâches de mise à l'échelle vidéo pour les vidéos panoramiques.

Invite de génération de vidéo longue : Coucher de soleil sur une plage.

Invite de super résolution vidéo : Vue panoramique à 360 degrés de l'intérieur d'une charmante boulangerie artisanale bouillonnante d'activité. Les boulangers préparent avec soin pains, viennoiseries et desserts artisanaux. Les étagères regorgent de viennoiseries chaudes, tandis que des parfums aromatiques embaument l'air, créant une atmosphère chaleureuse, réconfortante et gourmande.

Invite d'édition sémantique : Changez la couleur du train en rouge.

Invite d'extension vidéo : Vue panoramique de montgolfières colorées s'élevant avec grâce au-dessus de champs verdoyants, leurs teintes vibrantes contrastant avec un vaste ciel bleu tacheté de nuages. Une douce brise les propulse dans une danse sereine, projetant des ombres dynamiques sur le paysage verdoyant en contrebas. Plan large depuis le sol, saisissant l'immensité du paysage.

Évaluation quantitative et qualitative

L'équipe de recherche a effectué des comparaisons quantitatives et qualitatives de PanoWan avec 360DVD (CVPR'24) et DynamicScaler (CVPR'25), qui sont également applicables aux vidéos panoramiques de Vincent.

Afin d'évaluer scientifiquement la qualité visuelle générée et les caractéristiques des vidéos panoramiques, l'équipe a adopté un système d'évaluation prenant en compte à la fois des indicateurs généraux d'évaluation vidéo et des indicateurs spécifiques aux panoramas. Parmi ces indicateurs, les indicateurs généraux incluent la qualité vidéo globale (FVD), la correspondance texte-vidéo (VideoCLIP-XL) et la qualité d'image, tandis que les indicateurs spécifiques aux panoramas utilisent des critères d'évaluation pour mesurer la continuité des limites de longitude, la précision des mouvements et la richesse de la scène.À en juger par les résultats expérimentaux quantitatifs, PanoWan a obtenu les meilleures performances dans tous les indicateurs clés.

Ce qui suit montre la comparaison des effets visuels de PanoWan et des méthodes existantes :

À propos de l'équipe de recherche

Shi Boxin, directeur du Laboratoire d'intelligence des caméras de l'Université de Pékin (http://camera.pku.edu.cn), est directeur adjoint de l'Institut de technologie vidéo et visuelle de l'École d'informatique de l'Université de Pékin, professeur associé titulaire (chercheur), directeur de thèse, boursier Beijing Zhiyuan et directeur du Laboratoire conjoint d'intelligence incarnée Université de Pékin-Zhifang. Il a obtenu son doctorat à l'Université de Tokyo, au Japon, et a été chercheur postdoctoral au MIT Media Lab.

Français Ses recherches portent sur la photographie computationnelle et la vision par ordinateur. Il a publié plus de 200 articles (dont 30 articles TPAMI et plus de 100 articles dans les trois principales conférences sur la vision par ordinateur). Son article a remporté le prix du meilleur article, deuxième place de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR) 2024, le prix du meilleur article, deuxième place de la conférence internationale sur la photographie computationnelle (ICCP) 2015 et le prix du meilleur article candidat de la conférence internationale sur la vision par ordinateur (ICCV) 2015. Il a remporté le prix Japan Okawa Research Grant Award (2021) et le prix du jeune scientifique de l'Institut chinois d'électronique (2024). Il est le scientifique en chef des principaux projets d'intelligence artificielle du ministère des Sciences et Technologies, le responsable des projets clés de la Fondation nationale des sciences naturelles de Chine et le candidat du Programme national des jeunes talents. Il est membre du comité de rédaction des revues internationales de renom TPAMI et IJCV, et président de domaine des conférences prestigieuses CVPR, ICCV et ECCV. Il est conférencier éminent de l'APSIPA, membre éminent du CCF et membre senior de l'IEEE/CSIG.

OpenBayes Bayesian Computing, principal collaborateur national de services d'intelligence artificielle, est profondément engagé dans la recherche industrielle et le soutien à la recherche scientifique. En intégrant des écosystèmes logiciels classiques et des modèles d'apprentissage automatique à la nouvelle génération de puces hétérogènes, il offre aux entreprises industrielles et aux instituts de recherche universitaires des solutions de calcul de données plus rapides et plus simples d'utilisation. Ses produits ont été adoptés par des dizaines de grands projets industriels ou d'instituts de recherche scientifique de premier plan.

Visitez le site officiel :https://openbayes.com/