HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation

Abstract

Bestehende Video-Avatar-Modelle können flüssige menschliche Animationen erzeugen, stoßen jedoch an ihre Grenzen, wenn es darum geht, über eine bloße physische Ähnlichkeit hinauszugehen und die echte Essenz einer Figur zu erfassen. Ihre Bewegungen sind typischerweise an niedrigstufige Signale wie die Tonrhythmik angepasst und verfügen über keine tiefergehende semantische Verständnis von Emotion, Absicht oder Kontext. Um diese Lücke zu schließen, präsentieren wir einen Ansatz, der darauf abzielt, Charakteranimationen zu generieren, die nicht nur physikalisch plausibel, sondern auch semantisch kohärent und ausdrucksstark sind. Unser Modell, OmniHuman-1.5, basiert auf zwei zentralen technischen Innovationen. Erstens nutzen wir Multimodale Große Sprachmodelle, um eine strukturierte textuelle Darstellung von Bedingungen zu synthetisieren, die hochwertige semantische Anleitung bereitstellt. Diese Anleitung führt unseren Bewegungs-Generator über einfache rhythmische Synchronisation hinaus und ermöglicht die Erzeugung von Aktionen, die kontextuell und emotional angemessen sind. Zweitens stellen wir eine spezialisierte Multimodale DiT-Architektur mit einer neuartigen Pseudo-Last-Frame-Design vor, um die effektive Fusion multimodaler Eingaben sicherzustellen und Intermodalkonflikte zu minimieren. Die Synergie dieser Komponenten ermöglicht es unserem Modell, die gemeinsame Semantik von Audio, Bildern und Text präzise zu interpretieren und somit Bewegungen zu generieren, die tiefgreifend auf die Figur, die Szene und den sprachlichen Inhalt abgestimmt sind. Umfangreiche Experimente zeigen, dass unser Modell führende Leistung in einer umfassenden Reihe von Metriken erzielt, darunter Lippen-Synchronisation, Videoqualität, Natürlichkeit der Bewegung sowie semantische Konsistenz mit textuellen Eingaben. Darüber hinaus demonstriert unser Ansatz bemerkenswerte Erweiterbarkeit für komplexe Szenarien, beispielsweise solche mit mehreren Personen oder nicht-menschlichen Subjekten.Homepage: https://omnihuman-lab.github.io/v1_5/

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation | Forschungsarbeiten | HyperAI