Command Palette
Search for a command to run...
OmniHuman-1.5 : Insuffler une pensée active aux avatars par simulation cognitive
Jianwen Jiang Weihong Zeng Zerong Zheng Jiaqi Yang Chao Liang Wang Liao Han Liang Yuan Zhang Mingyuan Gao

Résumé
Les modèles existants d'avatars vidéo parviennent à produire des animations humaines fluides, mais peinent à aller au-delà d'une simple ressemblance physique pour capturer l'essence authentique d'un personnage. Leurs mouvements sont généralement synchronisés avec des indices de bas niveau tels que le rythme audio, sans une compréhension sémantique approfondie des émotions, des intentions ou du contexte. Pour combler cet écart, nous proposons un cadre permettant de générer des animations de personnages non seulement physiquement crédibles, mais aussi sémantiquement cohérentes et expressives. Notre modèle, OmniHuman-1.5, repose sur deux contributions techniques clés. Premièrement, nous exploitons des grands modèles linguistiques multimodaux (Multimodal Large Language Models) afin de synthétiser une représentation textuelle structurée des conditions, offrant ainsi une guidance sémantique de haut niveau. Cette guidance permet à notre générateur de mouvements de dépasser la simple synchronisation rythmique, en rendant possible la production d’actions profondément ancrées dans le contexte émotionnel et sémantique. Deuxièmement, afin d’assurer une fusion efficace de ces entrées multimodales et de réduire les conflits inter-modaux, nous introduisons une architecture Multimodal DiT spécialisée, dotée d’un nouveau mécanisme appelé Pseudo Last Frame. La synergie de ces composants permet à notre modèle d’interpréter avec précision les significations conjointes de l’audio, des images et du texte, générant ainsi des mouvements fortement cohérents avec le personnage, la scène et le contenu linguistique. Des expériences étendues démontrent que notre modèle atteint des performances de pointe sur une large gamme de métriques, incluant la précision de synchronisation labiale, la qualité vidéo, la nature naturelle des mouvements et la cohérence sémantique avec les prompts textuels. En outre, notre approche se révèle remarquablement extensible à des scénarios complexes, tels que ceux impliquant plusieurs personnes ou des sujets non humains.Page d'accueil : https://omnihuman-lab.github.io/v1_5/
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.