HyperAI

Latte Worlds Erstes Open-Source-Vincent-Video DiT

Papier | Projektseite

Projektvorstellung

Mit der erfolgreichen Veröffentlichung von Sora hat das Video-DiT-Modell viel Aufmerksamkeit und Diskussionen erhalten. Die Entwicklung stabiler neuronaler Netzwerke im ultragroßen Maßstab war schon immer ein Forschungsschwerpunkt im Bereich der visuellen Generierung. Der Erfolg von DiT hat eine Ausweitung der Bilderzeugung ermöglicht. Latte (Latent Diffusion Transformer for Video Generation) ist ein innovatives Modell zur Videogenerierung, das im November 2023 als Open Source veröffentlicht wurde. Als weltweit erstes Open-Source-Vincent-Video-DiT hat Latte vielversprechende Ergebnisse erzielt.

Dieses Tutorial demonstriert die Effektimplementierung des Latte-Projekts.

Effektanzeige

1

Lernprogramm

Individuelle Text-zu-Video-Generierung mit Latte

1. Klonen Sie den Container und führen Sie ihn aus

2. Öffnen Sie den Arbeitsbereich und legen Sie die Texteingabe fest

Öffnen Sie die Konfigurationsdatei links home/Latte/configs/t2v/t2v_sample.yaml, doppelklicken Sie zum Öffnen, ändern Sie den Text unter text_prompt. Dieser Artikel enthält relevante Beispiele, wie unten gezeigt. Nach der Änderung ctrl+S  speichern.

2

3. Video generieren

Öffnen Sie ein Terminal und geben Sie ein:cd Latte/  Verzeichnis wechseln,

Geben Sie im Terminal ein:bash sample/t2v.sh  Erstellen Sie hochauflösendes Video, warten Sie, bis das Programm fertig ist, und dann Latte/sample_videos  Die generierten Ergebnisse befinden sich im Verzeichnis, t2v_0000-.mp4 ist das Gesamtvideo des Eingabeaufforderungstextes und andere .mp4-Dateien sind die von einer einzelnen Eingabeaufforderung generierten Videos.

Hinweis: Das generierte Video kann nicht direkt im Container angesehen werden. Sie müssen mit der rechten Maustaste auf die Datei klicken, um das Video zum Anzeigen auf Ihren lokalen Computer herunterzuladen.

Weitere Codeinformationen

Latte-Inferenzcode

Latte kann durch Training mit vier Standarddatensätzen zur Videogenerierung (FaceForensics, SkyTimelapse, UCF101 und Taichi-HD) vier Modelle erhalten. Jedes Modell erstellt ein Video der entsprechenden Szene. Nachfolgend die Erklärung zur Vorgehensweise: Zuerst das Projekt aufrufen, Terminal öffnen und eingeben:cd Latte/

1. FaceForensics: Gesichtserkennung anhand synthetischer Bilder

Geben Sie im Terminal ein:bash sample/ffs.sh

Um ein Gesicht zu generieren, nachdem das Programm beendet ist, Latte/test_ffs Überprüfen Sie die generierten Ergebnisse im Verzeichnis.

Hinweis: Jedes generierte Ergebnis überschreibt das vorherige Ergebnis.

2. SkyTimelapse: Fotografische Himmelsbilder

Geben Sie im Terminal ein:bash sample/sky.sh

Um den Himmel zu erzeugen, verwenden Sie nach dem Programmende die linke Latte/test_sky Generieren Sie Ergebnisse im Verzeichnis und laden Sie sie zur Anzeige auf Ihren lokalen Computer herunter.

3. UCF101: Aktionserkennung in realistischen Actionvideos

Geben Sie im Terminal ein:bash sample/ucf101.sh

Um echte Aktionen zu generieren, nachdem das Programm beendet ist, Latte/test_UCF101  Generieren Sie Ergebnisse im Verzeichnis und laden Sie sie zur Anzeige auf Ihren lokalen Computer herunter.

4. Taichi-HD; Hochauflösende Videoerzeugung

Geben Sie im Terminal ein:bash sample/taichi.sh

Um hochauflösende Videos zu erzeugen, nachdem das Programm abgeschlossen ist, Latte/test_Taichi  Generieren Sie Ergebnisse im Verzeichnis und laden Sie sie zur Anzeige auf Ihren lokalen Computer herunter.