HyperAI

Pyramid Flow Generiert Eine Ultra-High-Definition-Videodemo in Einer Minute

⚡️Pyramidenfluss⚡️: Trainingseffizientes autoregressives Videogenerierungsmodell basierend auf Flow Matching

1. Einführung in das Tutorial

Pyramid Flow ist ein Open-Source-Modell zur Generierung von Ultra-High-Definition-Videos, das 2024 von einem gemeinsam von Kuaishou, der Peking-Universität und der Peking-Universität für Post und Telekommunikation gegründeten Forschungsteam auf den Markt gebracht wurde.Pyramidal Flow Matching für effizientes Video Generative Modeling". Dieses Modell kann basierend auf Textbeschreibungen qualitativ hochwertige Videos mit einer maximalen Länge von 10 Sekunden, einer Auflösung von bis zu 1280 × 768 und einer Bildrate von 24 fps generieren. Die Kerntechnologie von Pyramid Flow ist der Pyramid Flow Matching-Algorithmus, der den Videogenerierungsprozess in mehrere Phasen mit unterschiedlichen Auflösungen zerlegt und so die Effizienz und Qualität der Generierung verbessert.

Dieses Tutorial stellt eine trainingseffiziente Methode zur autoregressiven Videogenerierung auf Basis von Stream Matching vor. Durch das Training ausschließlich mit Open-Source-Datensätzen kann es hochwertige 10-Sekunden-Videos mit einer Auflösung von 768p und 24 FPS generieren und unterstützt natürlich die Bild-zu-Video-Generierung. Dieses Tutorial unterstützt die folgenden Modelle und Funktionen:

Zwei Modellprüfpunkte:

  • 768p: Unterstützt bis zu 10 Sekunden Video bei 24 FPS
  • 384p: Unterstützt die Generierung von 5-Sekunden-Videos mit 24 FPS

Zwei Funktionen:

  • Vincent-Video (Text zu Video)
  • Bild-zu-Video-Generierung (image_to_video)

2. Bedienungsschritte

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

1. Text zu Video (text_to_video)

wählen Text-zu-Video Funktion: Geben Sie unten die Eingabewörter und zugehörigen Einstellungen wie erforderlich ein.

  • Eingabeaufforderung: Eine Textaufforderung, die als Leitfaden für die Videoerstellung verwendet wird. Beachten Sie, dass die Länge 128 Zeichen nicht überschreiten darf.
  • Dauer: Die Länge des generierten Videos, Dauer=16: 5 s, Temperatur=31: 10 s.
  • guidance_scale: Steuert die visuelle Qualität. Wir schlagen vor, die Anleitung in [7, 9] für den 768p-Checkpoint und 7 für den 384p-Checkpoint während der Text-zu-Video-Generierung zu verwenden.
  • video_guidance_scale: Steuert die Bewegung. Größere Werte erhöhen den Dynamikumfang und mildern die Verschlechterung der autoregressiven Generierung, während kleinere Werte das Video stabilisieren. Für die Generierung von 10-Sekunden-Videos empfehlen wir die Verwendung einer 7-stufigen Anleitungsskala und einer 5-stufigen Video-Anleitungsskala. Nach dem Testen dauert es etwa 4 Minuten, um mit einem 768p-Checkpoint (größeres Modell) ein 5-Sekunden-Video zu generieren, und etwa 2 Minuten, um mit einem 384p-Modell (kleineres Modell) ein 5-Sekunden-Video zu generieren.  
Abbildung 1: Demonstration der Vincent-Videofunktion

2. Bild-zu-Video-Generierung (image_to_video)

wählen Bild_zu_Video Funktion: Geben Sie unten die Eingabewörter und zugehörigen Einstellungen wie erforderlich ein.

  • input_image: Laden Sie das Originalbild hoch
  • Eingabeaufforderung: Eine Textaufforderung, die als Leitfaden für die Videoerstellung verwendet wird. Beachten Sie, dass die Länge 128 Zeichen nicht überschreiten darf.
  • Dauer: Die Länge des generierten Videos, Dauer=16: 5 s, Temperatur=31: 10 s.
  • video_guidance_scale: Steuert die Bewegung. Größere Werte erhöhen den Dynamikumfang und mildern die Verschlechterung der autoregressiven Generierung, während kleinere Werte das Video stabilisieren. Für die Generierung von 10-Sekunden-Videos empfehlen wir die Verwendung einer 7-stufigen Anleitungsskala und einer 5-stufigen Video-Anleitungsskala. Nach dem Testen dauert es etwa 3 Minuten, um mit einem 768p-Checkpoint (größeres Modell) ein 5-Sekunden-Video zu generieren, und etwa 2 Minuten, um mit einem 384p-Modell (kleineres Modell) ein 5-Sekunden-Video zu generieren.
Abbildung 2 Videodemonstration zur Bilderzeugung

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓