17 天前
文本查询驱动的掩码Transformer用于领域泛化的分割
Byeonghyun Pak, Byeongju Woo, Sunghwan Kim, Dae-hwan Kim, Hoseong Kim

摘要
本文提出一种新方法,用于解决领域泛化语义分割(Domain Generalized Semantic Segmentation, DGSS)问题,该方法通过利用视觉-语言模型文本嵌入中的领域不变语义知识来实现。我们将文本嵌入作为基于Transformer的分割框架中的对象查询(即“文本对象查询”),将其视为DGSS中像素分组的领域不变基础。为充分发挥文本对象查询的潜力,我们提出一种新型框架——文本查询驱动的掩码Transformer(textual query-driven mask transformer, tqdm)。该框架旨在实现两个目标:(1)生成最大程度编码领域不变语义的文本对象查询;(2)提升密集视觉特征的语义清晰度。此外,我们设计了三种正则化损失函数,通过增强视觉特征与文本特征之间的对齐,进一步提升tqdm的性能。借助本方法,模型能够理解目标类别内在的语义信息,从而实现对极端领域(如素描风格)的强泛化能力。在GTA5→Cityscapes基准上,tqdm取得了68.9 mIoU的性能,相较于先前最先进方法提升2.5 mIoU。项目主页详见:https://byeonghyunpak.github.io/tqdm。