2 个月前

开放词汇全景分割与文本到图像扩散模型

Jiarui Xu; Sifei Liu; Arash Vahdat; Wonmin Byeon; Xiaolong Wang; Shalini De Mello
开放词汇全景分割与文本到图像扩散模型
摘要

我们介绍了ODISE:开放词汇扩散基础全景分割(Open-vocabulary DIffusion-based panoptic SEgmentation),该方法通过统一预训练的文本-图像扩散模型和判别模型来实现开放词汇全景分割。文本到图像的扩散模型具有生成高质量图像并附带多样化的开放词汇语言描述的显著能力,这表明其内部表示空间与现实世界中的开放概念高度相关。另一方面,像CLIP这样的文本-图像判别模型在将图像分类为开放词汇标签方面表现出色。我们利用这两种模型的冻结内部表示来进行野外任何类别的全景分割。我们的方法在这两个开放词汇全景分割和语义分割任务上均大幅超越了先前的最先进水平。特别是仅使用COCO数据集进行训练的情况下,我们的方法在ADE20K数据集上实现了23.4%的PQ(全景质量)和30.0%的mIoU(平均交并比),相比之前的最先进水平分别提高了8.3%的PQ和7.9%的mIoU。我们在https://github.com/NVlabs/ODISE 开源了我们的代码和模型。