HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 6 jours

Avatar en direct : génération d'avatar piloté par l'audio en temps réel avec une longueur infinie

Avatar en direct : génération d'avatar piloté par l'audio en temps réel avec une longueur infinie

Résumé

Les méthodes existantes de génération vidéo fondées sur les diffusions sont fondamentalement limitées par un calcul séquentiel et une incohérence à long terme, ce qui entrave leur adoption pratique dans des applications en temps réel, telles que la synthèse d’avatars pilotés par le son en streaming. Nous présentons Live Avatar, un cadre algorithmique-système co-conçu permettant une génération efficace, de haute fidélité et infinie d’avatars à l’aide d’un modèle de diffusion de 14 milliards de paramètres. Notre approche introduit le Timestep-forcing Pipeline Parallelism (TPP), un paradigme d’inférence distribuée qui canalise les étapes de débruitage sur plusieurs GPU, rompant efficacement le goulot d’étranglement autoregressif et garantissant un streaming temps réel stable et à faible latence. Pour renforcer davantage la cohérence temporelle et atténuer les dérives d’identité et les artefacts de couleur, nous proposons le mécanisme Rolling Sink Frame (RSFM), qui préserve la fidélité séquentielle en recalibrant dynamiquement l’apparence à l’aide d’une image de référence mise en cache. En outre, nous exploitons une distillation par correspondance de distribution auto-forçante afin de faciliter une adaptation causale et streamable des grands modèles sans compromettre la qualité visuelle. Live Avatar atteint des performances de pointe, générant en temps réel jusqu’à 20 FPS sur 5 GPU H800, et, à notre connaissance, constitue le premier système à réaliser une génération d’avatars en temps réel, de haute fidélité et pratique à cette échelle. Ce travail établit un nouveau paradigme pour le déploiement de modèles de diffusion avancés dans des applications industrielles de synthèse vidéo longue-forme.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Avatar en direct : génération d'avatar piloté par l'audio en temps réel avec une longueur infinie | Articles de recherche | HyperAI