Command Palette
Search for a command to run...
MIDAS: Multimodale interaktive digitale Mensch-Synthese durch Echtzeit-Autoregressive Videogenerierung
Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

Abstract
In jüngster Zeit hat die interaktive Generierung digitaler menschlicher Videos erhebliche Aufmerksamkeit erregt und bemerkenswerte Fortschritte erzielt. Dennoch bleibt die Entwicklung praktikabler Systeme, die in Echtzeit mit vielfältigen Eingabesignalen interagieren können, für bestehende Ansätze weiterhin herausfordernd, da diese oft mit hoher Latenz, hohem Rechenaufwand und begrenzter Steuerbarkeit kämpfen. In dieser Arbeit stellen wir einen autoregressiven Video-Generierungsansatz vor, der interaktive multimodale Steuerung und latenzarme Extrapolation in streaming-ähnlicher Weise ermöglicht. Unser Framework erfordert nur minimale Anpassungen an einem Standard-Größensprachmodell (LLM) und akzeptiert multimodale Bedingungsencodings, darunter Audio, Körperhaltung und Text, um räumlich und semantisch konsistente Darstellungen zu generieren, die den Denoisingsprozess eines Diffusions-Moduls steuern. Zur Unterstützung dieses Ansatzes haben wir eine großskalige Dialogdatenbank mit insgesamt etwa 20.000 Stunden aus mehreren Quellen zusammengestellt, die eine reiche Vielfalt an Gesprächsszenarien für das Training bereitstellt. Zudem führen wir einen tiefen Kompressions-Autoencoder mit einer Kompressionsrate von bis zu 64:1 ein, der die Belastung bei der langzeitbasierten Inferenz des autoregressiven Modells effektiv verringert. Umfangreiche Experimente im Bereich doppelseitiger Gespräche, mehrsprachiger menschlicher Synthese sowie interaktiver Weltmodelle unterstreichen die Vorteile unseres Ansatzes hinsichtlich geringer Latenz, hoher Effizienz und feinabgestimmter multimodaler Steuerbarkeit.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.