2 个月前

基于文本引导的从2D集合生成3D人体模型

Tsu-Jui Fu; Wenhan Xiong; Yixin Nie; Jingyu Liu; Barlas Oğuz; William Yang Wang
基于文本引导的从2D集合生成3D人体模型
摘要

三维人体建模在游戏、电影和动画中的互动应用已十分广泛。这些角色的定制对于创意和可扩展性至关重要,这突显了可控性的的重要性。在本研究中,我们引入了一种基于文本引导的三维人体生成方法(Text-guided 3D Human Generation, T3H),该模型能够在时尚描述的指导下生成三维人体。我们的目标有两个:1)生成的三维人体应具有清晰的渲染效果;2)其服装由给定的文本控制。为了解决这一T3H任务,我们提出了组合跨模态人体(Compositional Cross-modal Human, CCH)。CCH采用跨模态注意力机制,将组合式人体渲染与提取出的时尚语义进行融合。每个身体部位都能感知到相关的文本指导,并将其作为视觉模式。我们结合了人体先验知识和语义区分技术,以增强三维几何变换和细粒度一致性,从而能够从二维数据集中高效学习。我们在DeepFashion和SHHQ数据集上进行了评估,涵盖了多样化的时尚属性,包括上衣和下装的形状、面料和颜色。大量实验表明,CCH在T3H任务中取得了高效且优越的结果。

基于文本引导的从2D集合生成3D人体模型 | 最新论文 | HyperAI超神经