HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 6 Tagen

Live Avatar: Echtzeit-Audio-getriebene Avatar-Generierung mit unendlicher Länge

Live Avatar: Echtzeit-Audio-getriebene Avatar-Generierung mit unendlicher Länge

Abstract

Bestehende, auf Diffusion basierende Verfahren zur Videogenerierung sind grundlegend durch sequenzielle Berechnung und mangelnde Konsistenz über lange Zeiträume eingeschränkt, was ihre praktische Anwendung in Echtzeit- und Streaming-Anwendungen für audiogetriebene Avatare begrenzt. Wir präsentieren Live Avatar, einen algorithmisch-systematisch koentwickelten Rahmen, der effiziente, hochfidele und unendlich lange Avatare mit einem 14-Milliarden-Parameter-Diffusionsmodell ermöglicht. Unser Ansatz führt Timestep-forcing Pipeline Parallelism (TPP) ein, ein verteiltes Inferenzparadigma, das die Entrauschungsschritte über mehrere GPUs pipelined verarbeitet und so die autoregressive Engstelle effektiv überwindet, wodurch stabile, latenzarme Echtzeit-Streaming-Generierung gewährleistet wird. Um die zeitliche Konsistenz weiter zu verbessern und Identitätsdrift sowie Farbartefakte zu minimieren, schlagen wir die Rolling Sink Frame Mechanism (RSFM) vor, die die Sequenzkonsistenz durch dynamische Neukalibrierung des Erscheinungsbilds mittels eines zwischengespeicherten Referenzbildes aufrechterhält. Zudem nutzen wir Self-Forcing Distribution Matching Distillation, um eine kausale, streambare Anpassung großer Modelle ohne Verlust an visueller Qualität zu ermöglichen. Live Avatar erreicht eine state-of-the-art-Leistung und generiert end-to-end mit 20 FPS auf 5 H800-GPUs – und, soweit uns bekannt, ist es das erste Verfahren, das praktikable, Echtzeit- und hochfidele Avataregenerierung in diesem Maßstab realisiert. Unsere Arbeit etabliert ein neues Paradigma für die industrielle Anwendung fortschrittlicher Diffusionsmodelle in langformigen Videosyntheseprojekten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Live Avatar: Echtzeit-Audio-getriebene Avatar-Generierung mit unendlicher Länge | Forschungsarbeiten | HyperAI