2 个月前

PhotoMaker:通过堆叠ID嵌入定制逼真的人像照片

Li, Zhen ; Cao, Mingdeng ; Wang, Xintao ; Qi, Zhongang ; Cheng, Ming-Ming ; Shan, Ying
PhotoMaker:通过堆叠ID嵌入定制逼真的人像照片
摘要

近期在文本到图像生成领域的进展已经在根据给定的文本提示合成逼真的人类照片方面取得了显著的成果。然而,现有的个性化生成方法无法同时满足高效率、良好的身份(ID)保真度和灵活的文本可控性的要求。在这项工作中,我们介绍了PhotoMaker,一种高效的个性化文本到图像生成方法,该方法主要将任意数量的输入ID图像编码为堆叠ID嵌入以保留ID信息。这种嵌入作为统一的ID表示形式,不仅能够全面封装同一输入ID的特征,还能容纳不同ID的特征以供后续整合。这为更多有趣且实用的应用铺平了道路。此外,为了推动我们的PhotoMaker训练,我们提出了一种面向ID的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的支持下,我们的PhotoMaker展示了比基于测试时间微调的方法更好的ID保留能力,同时提供了显著的速度提升、高质量的生成结果、强大的泛化能力和广泛的应用范围。我们的项目页面可在 https://photo-maker.github.io/ 查看。

PhotoMaker:通过堆叠ID嵌入定制逼真的人像照片 | 最新论文 | HyperAI超神经