Waver: Wellen Sie sich Ihren Weg zur lebensechten Videogenerierung frei

Wir stellen Waver vor, ein leistungsstarkes Grundlagenmodell für die einheitliche Generierung von Bildern und Videos. Waver kann direkt Videos mit einer Länge von 5 bis 10 Sekunden in nativer Auflösung von 720p erzeugen, die anschließend auf 1080p hochskaliert werden. Das Modell unterstützt gleichzeitig die Generierung von Text-zu-Video (T2V), Bild-zu-Video (I2V) sowie Text-zu-Bild (T2I) innerhalb eines einzigen, integrierten Rahmens. Zur Verbesserung der Modalitätsausrichtung und Beschleunigung des Trainingskonvergenzprozesses führen wir eine Hybrid Stream DiT-Architektur ein. Um die Qualität der Trainingsdaten sicherzustellen, haben wir eine umfassende Datenreinigungspipeline etabliert und ein MLLM-basiertes Videoqualitätsmodell manuell annotiert sowie trainiert, um die hochwertigsten Datensätze zu identifizieren und auszuwählen. Zudem liefern wir detaillierte Anleitungen für das Training und die Inferenz, um die Erzeugung hochwertiger Videos zu erleichtern. Aufbauend auf diesen Beiträgen überzeugt Waver durch eine präzise Erfassung komplexer Bewegungen und erreicht hervorragende Ergebnisse hinsichtlich Bewegungsamplitude und zeitlicher Konsistenz bei der Video-Synthese. Besonders hervorzuheben ist, dass es sich unter den Top 3 sowohl im T2V- als auch im I2V-Leaderboard von Artificial Analysis (Datenstand: 2025-07-30 10:00 GMT+8) befindet und dabei bestehende Open-Source-Modelle konstant übertrifft sowie state-of-the-art kommerzielle Lösungen erreicht oder sogar übertreffen kann. Wir hoffen, dass dieser technische Bericht der Forschungsgemeinschaft hilft, effizienter hochwertige Video-Generationsmodelle zu trainieren und die Entwicklung der Video-Generierungstechnologien voranzutreiben. Offizielle Seite: https://github.com/FoundationVision/Waver.