8 个月前

计算机视觉

Jinlong Zhang Xiaowei Guo Chongxuan Li Yongxin Tu Zhiyuan Liu

摘要

文本到图像扩散模型能够生成高质量的图像，但无法对图像中的单个实例进行控制。我们引入了InstanceDiffusion（实例扩散），该方法为文本到图像扩散模型增加了精确的实例级控制。InstanceDiffusion支持每个实例的自由形式语言条件，并允许灵活指定实例位置的方式，如简单的单点、涂鸦、边界框或复杂的实例分割掩模及其组合。我们提出了对文本到图像模型的三项主要改进，以实现精确的实例级控制。我们的UniFusion模块使文本到图像模型具备实例级条件的能力，ScaleU模块提高了图像保真度，而Multi-instance Sampler（多实例采样器）则改善了多个实例的生成效果。在每种位置条件下，InstanceDiffusion显著超越了现有的专门模型。特别是在COCO数据集上，对于边界框输入，我们的性能比之前的最先进方法高出20.4% AP $_{50}^\text{box}$ ；对于掩模输入，则高出25.4% IoU。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Jinlong Zhang Xiaowei Guo Chongxuan Li Yongxin Tu Zhiyuan Liu

摘要

文本到图像扩散模型能够生成高质量的图像，但无法对图像中的单个实例进行控制。我们引入了InstanceDiffusion（实例扩散），该方法为文本到图像扩散模型增加了精确的实例级控制。InstanceDiffusion支持每个实例的自由形式语言条件，并允许灵活指定实例位置的方式，如简单的单点、涂鸦、边界框或复杂的实例分割掩模及其组合。我们提出了对文本到图像模型的三项主要改进，以实现精确的实例级控制。我们的UniFusion模块使文本到图像模型具备实例级条件的能力，ScaleU模块提高了图像保真度，而Multi-instance Sampler（多实例采样器）则改善了多个实例的生成效果。在每种位置条件下，InstanceDiffusion显著超越了现有的专门模型。特别是在COCO数据集上，对于边界框输入，我们的性能比之前的最先进方法高出20.4% AP $_{50}^\text{box}$ ；对于掩模输入，则高出25.4% IoU。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供