vor 5 Monaten

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Zusammenfassung

Bestehende Video-Avatar-Modelle können flüssige menschliche Animationen erzeugen, stoßen jedoch an ihre Grenzen, wenn es darum geht, über eine bloße physische Ähnlichkeit hinauszugehen und die echte Essenz einer Figur zu erfassen. Ihre Bewegungen sind typischerweise an niedrigstufige Signale wie die Tonrhythmik angepasst und verfügen über keine tiefergehende semantische Verständnis von Emotion, Absicht oder Kontext. Um diese Lücke zu schließen, präsentieren wir einen Ansatz, der darauf abzielt, Charakteranimationen zu generieren, die nicht nur physikalisch plausibel, sondern auch semantisch kohärent und ausdrucksstark sind. Unser Modell, OmniHuman-1.5, basiert auf zwei zentralen technischen Innovationen. Erstens nutzen wir Multimodale Große Sprachmodelle, um eine strukturierte textuelle Darstellung von Bedingungen zu synthetisieren, die hochwertige semantische Anleitung bereitstellt. Diese Anleitung führt unseren Bewegungs-Generator über einfache rhythmische Synchronisation hinaus und ermöglicht die Erzeugung von Aktionen, die kontextuell und emotional angemessen sind. Zweitens stellen wir eine spezialisierte Multimodale DiT-Architektur mit einer neuartigen Pseudo-Last-Frame-Design vor, um die effektive Fusion multimodaler Eingaben sicherzustellen und Intermodalkonflikte zu minimieren. Die Synergie dieser Komponenten ermöglicht es unserem Modell, die gemeinsame Semantik von Audio, Bildern und Text präzise zu interpretieren und somit Bewegungen zu generieren, die tiefgreifend auf die Figur, die Szene und den sprachlichen Inhalt abgestimmt sind. Umfangreiche Experimente zeigen, dass unser Modell führende Leistung in einer umfassenden Reihe von Metriken erzielt, darunter Lippen-Synchronisation, Videoqualität, Natürlichkeit der Bewegung sowie semantische Konsistenz mit textuellen Eingaben. Darüber hinaus demonstriert unser Ansatz bemerkenswerte Erweiterbarkeit für komplexe Szenarien, beispielsweise solche mit mehreren Personen oder nicht-menschlichen Subjekten.Homepage: https://omnihuman-lab.github.io/v1_5/

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Multimodale Darstellung

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Monaten

Multimodale Darstellung

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation | Paper | HyperAI

Command Palette

OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniHuman-1.5: Verleihen eines aktiven Geistes an Avatare durch kognitive Simulation

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters