il y a 2 mois

OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Résumé

Les modèles existants d'avatars vidéo parviennent à produire des animations humaines fluides, mais peinent à aller au-delà d'une simple ressemblance physique pour capturer l'essence authentique d'un personnage. Leurs mouvements sont généralement synchronisés avec des indices de bas niveau tels que le rythme audio, sans une compréhension sémantique approfondie des émotions, des intentions ou du contexte. Pour combler cet écart, nous proposons un cadre permettant de générer des animations de personnages non seulement physiquement crédibles, mais aussi sémantiquement cohérentes et expressives. Notre modèle, OmniHuman-1.5, repose sur deux contributions techniques clés. Premièrement, nous exploitons des grands modèles linguistiques multimodaux (Multimodal Large Language Models) afin de synthétiser une représentation textuelle structurée des conditions, offrant ainsi une guidance sémantique de haut niveau. Cette guidance permet à notre générateur de mouvements de dépasser la simple synchronisation rythmique, en rendant possible la production d’actions profondément ancrées dans le contexte émotionnel et sémantique. Deuxièmement, afin d’assurer une fusion efficace de ces entrées multimodales et de réduire les conflits inter-modaux, nous introduisons une architecture Multimodal DiT spécialisée, dotée d’un nouveau mécanisme appelé Pseudo Last Frame. La synergie de ces composants permet à notre modèle d’interpréter avec précision les significations conjointes de l’audio, des images et du texte, générant ainsi des mouvements fortement cohérents avec le personnage, la scène et le contenu linguistique. Des expériences étendues démontrent que notre modèle atteint des performances de pointe sur une large gamme de métriques, incluant la précision de synchronisation labiale, la qualité vidéo, la nature naturelle des mouvements et la cohérence sémantique avec les prompts textuels. En outre, notre approche se révèle remarquablement extensible à des scénarios complexes, tels que ceux impliquant plusieurs personnes ou des sujets non humains.Page d'accueil : https://omnihuman-lab.github.io/v1_5/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive

Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Résumé

Construire l'IA avec l'IA

Hyper Newsletters