6 个月前

多模态表征

计算机视觉

Byeonghyun Pak Byeongju Woo Sunghwan Kim Dae-hwan Kim Hoseong Kim

摘要

本文提出一种新方法，用于解决领域泛化语义分割（Domain Generalized Semantic Segmentation, DGSS）问题，该方法通过利用视觉-语言模型文本嵌入中的领域不变语义知识来实现。我们将文本嵌入作为基于Transformer的分割框架中的对象查询（即“文本对象查询”），将其视为DGSS中像素分组的领域不变基础。为充分发挥文本对象查询的潜力，我们提出一种新型框架——文本查询驱动的掩码Transformer（textual query-driven mask transformer, tqdm）。该框架旨在实现两个目标：（1）生成最大程度编码领域不变语义的文本对象查询；（2）提升密集视觉特征的语义清晰度。此外，我们设计了三种正则化损失函数，通过增强视觉特征与文本特征之间的对齐，进一步提升tqdm的性能。借助本方法，模型能够理解目标类别内在的语义信息，从而实现对极端领域（如素描风格）的强泛化能力。在GTA5→Cityscapes基准上，tqdm取得了68.9 mIoU的性能，相较于先前最先进方法提升2.5 mIoU。项目主页详见：https://byeonghyunpak.github.io/tqdm。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Byeonghyun Pak Byeongju Woo Sunghwan Kim Dae-hwan Kim Hoseong Kim

摘要

本文提出一种新方法，用于解决领域泛化语义分割（Domain Generalized Semantic Segmentation, DGSS）问题，该方法通过利用视觉-语言模型文本嵌入中的领域不变语义知识来实现。我们将文本嵌入作为基于Transformer的分割框架中的对象查询（即“文本对象查询”），将其视为DGSS中像素分组的领域不变基础。为充分发挥文本对象查询的潜力，我们提出一种新型框架——文本查询驱动的掩码Transformer（textual query-driven mask transformer, tqdm）。该框架旨在实现两个目标：（1）生成最大程度编码领域不变语义的文本对象查询；（2）提升密集视觉特征的语义清晰度。此外，我们设计了三种正则化损失函数，通过增强视觉特征与文本特征之间的对齐，进一步提升tqdm的性能。借助本方法，模型能够理解目标类别内在的语义信息，从而实现对极端领域（如素描风格）的强泛化能力。在GTA5→Cityscapes基准上，tqdm取得了68.9 mIoU的性能，相较于先前最先进方法提升2.5 mIoU。项目主页详见：https://byeonghyunpak.github.io/tqdm。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供