8 个月前

计算机视觉

计算机视觉

Hai Nguyen-Truong E-Ro Nguyen* Tuan-Anh Vu Minh-Triet Tran Binh-Son Hua Sai-Kit Yeung

摘要

指代图像分割是一项具有挑战性的任务，涉及根据自然语言描述生成像素级的分割掩码。随着所提供句子的复杂性增加，这项任务的难度也随之提高。现有的方法主要依赖视觉特征来生成分割掩码，而将文本特征视为辅助组件。然而，这种对文本理解的利用不足限制了模型完全理解给定表达式的能力。在本研究中，我们提出了一种新颖的框架，通过视觉感知文本特征（Vision-Aware Text Features）特别强调对象和上下文的理解，该框架受到人类认知过程的启发。首先，我们引入了一个CLIP先验模块来定位感兴趣的主对象，并将对象热图嵌入查询初始化过程中。其次，我们提出了两个组件的结合：上下文多模态解码器和意义一致性约束，以进一步增强语言线索与从图像中获得的上下文理解之间的连贯性和一致性。我们的方法在三个基准数据集RefCOCO、RefCOCO+和G-Ref上取得了显著的性能提升。项目页面：https://vatex.hkustvgd.com/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Hai Nguyen-Truong E-Ro Nguyen* Tuan-Anh Vu Minh-Triet Tran Binh-Son Hua Sai-Kit Yeung

摘要

指代图像分割是一项具有挑战性的任务，涉及根据自然语言描述生成像素级的分割掩码。随着所提供句子的复杂性增加，这项任务的难度也随之提高。现有的方法主要依赖视觉特征来生成分割掩码，而将文本特征视为辅助组件。然而，这种对文本理解的利用不足限制了模型完全理解给定表达式的能力。在本研究中，我们提出了一种新颖的框架，通过视觉感知文本特征（Vision-Aware Text Features）特别强调对象和上下文的理解，该框架受到人类认知过程的启发。首先，我们引入了一个CLIP先验模块来定位感兴趣的主对象，并将对象热图嵌入查询初始化过程中。其次，我们提出了两个组件的结合：上下文多模态解码器和意义一致性约束，以进一步增强语言线索与从图像中获得的上下文理解之间的连贯性和一致性。我们的方法在三个基准数据集RefCOCO、RefCOCO+和G-Ref上取得了显著的性能提升。项目页面：https://vatex.hkustvgd.com/。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供