vor 2 Monaten

MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

Abstract

In jüngster Zeit hat die interaktive Generierung digitaler menschlicher Videos erhebliche Aufmerksamkeit erregt und bemerkenswerte Fortschritte erzielt. Dennoch bleibt die Entwicklung praktikabler Systeme, die in Echtzeit mit vielfältigen Eingabesignalen interagieren können, für bestehende Ansätze weiterhin herausfordernd, da diese oft mit hoher Latenz, hohem Rechenaufwand und begrenzter Steuerbarkeit kämpfen. In dieser Arbeit stellen wir einen autoregressiven Video-Generierungsansatz vor, der interaktive multimodale Steuerung und latenzarme Extrapolation in streaming-ähnlicher Weise ermöglicht. Unser Framework erfordert nur minimale Anpassungen an einem Standard-Größensprachmodell (LLM) und akzeptiert multimodale Bedingungsencodings, darunter Audio, Körperhaltung und Text, um räumlich und semantisch konsistente Darstellungen zu generieren, die den Denoisingsprozess eines Diffusions-Moduls steuern. Zur Unterstützung dieses Ansatzes haben wir eine großskalige Dialogdatenbank mit insgesamt etwa 20.000 Stunden aus mehreren Quellen zusammengestellt, die eine reiche Vielfalt an Gesprächsszenarien für das Training bereitstellt. Zudem führen wir einen tiefen Kompressions-Autoencoder mit einer Kompressionsrate von bis zu 64:1 ein, der die Belastung bei der langzeitbasierten Inferenz des autoregressiven Modells effektiv verringert. Umfangreiche Experimente im Bereich doppelseitiger Gespräche, mehrsprachiger menschlicher Synthese sowie interaktiver Weltmodelle unterstreichen die Vorteile unseres Ansatzes hinsichtlich geringer Latenz, hoher Effizienz und feinabgestimmter multimodaler Steuerbarkeit.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

Abstract

KI mit KI entwickeln

Hyper Newsletters