il y a 2 jours

Waver : Ondulez votre chemin vers la génération vidéo réaliste

Yifu Zhang, Hao Yang, Yuqi Zhang, Yifei Hu, Fengda Zhu, Chuang Lin, Xiaofeng Mei, Yi Jiang, Zehuan Yuan, Bingyue Peng

Résumé

Nous présentons Waver, un modèle fondamental haute performance pour la génération unifiée d’images et de vidéos. Waver peut directement générer des vidéos de durée comprise entre 5 et 10 secondes à une résolution native de 720p, qui sont ensuite upscaleées à 1080p. Le modèle prend en charge simultanément la génération texte-vers-vidéo (T2V), image-vers-vidéo (I2V) et texte-vers-image (T2I) au sein d’un cadre intégré unique. Nous introduisons une architecture Hybrid Stream DiT afin d’améliorer l’alignement entre modalités et d’accélérer la convergence de l’entraînement. Pour garantir la qualité des données d’entraînement, nous avons mis en place une pipeline complète de curation des données, et avons manuellement annoté ainsi que formé un modèle de qualité vidéo basé sur un MLLM (modèle linguistique multimodal) afin de sélectionner uniquement les échantillons de meilleure qualité. En outre, nous fournissons des recettes détaillées pour l’entraînement et l’inférence, afin de faciliter la génération de vidéos de haute qualité. Grâce à ces contributions, Waver excelle dans la capture de mouvements complexes, atteignant une amplitude de mouvement supérieure et une cohérence temporelle optimale dans la synthèse vidéo. Notamment, il se classe parmi les trois premiers sur les classements T2V et I2V d’Artificial Analysis (données au 30 juillet 2025 à 10h00 GMT+8), surpassant de manière constante les modèles open source existants et égalant ou dépassant les solutions commerciales les plus avancées. Nous espérons que ce rapport technique aidera la communauté à entraîner plus efficacement des modèles de génération vidéo de haute qualité, et à accélérer les progrès dans ce domaine. Page officielle : https://github.com/FoundationVision/Waver.