6 个月前

计算机视觉

计算机视觉

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

摘要

在本工作中，针对指代图像分割问题，我们并未直接预测像素级的分割掩码，而是将其建模为一系列多边形的逐步生成过程，所预测的多边形后续可转换为最终的分割掩码。这一方法得益于一种新型的序列到序列框架——Polygon Transformer（PolyFormer），该框架以图像块序列与文本查询词元序列为输入，自回归地输出多边形顶点序列。为实现更精确的几何定位，我们提出一种基于回归的解码器，可直接预测精确的浮点坐标，避免了传统方法中因坐标量化带来的误差。实验结果表明，PolyFormer在性能上显著优于现有方法，在具有挑战性的RefCOCO+和RefCOCOg数据集上分别取得了5.40%和4.52%的绝对性能提升。此外，在未进行微调的情况下，该方法在指代视频分割任务上也展现出强大的泛化能力，例如在Ref-DAVIS17数据集上取得了61.5%的J&F（交并比与F值的联合指标），表现具有竞争力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

摘要

在本工作中，针对指代图像分割问题，我们并未直接预测像素级的分割掩码，而是将其建模为一系列多边形的逐步生成过程，所预测的多边形后续可转换为最终的分割掩码。这一方法得益于一种新型的序列到序列框架——Polygon Transformer（PolyFormer），该框架以图像块序列与文本查询词元序列为输入，自回归地输出多边形顶点序列。为实现更精确的几何定位，我们提出一种基于回归的解码器，可直接预测精确的浮点坐标，避免了传统方法中因坐标量化带来的误差。实验结果表明，PolyFormer在性能上显著优于现有方法，在具有挑战性的RefCOCO+和RefCOCOg数据集上分别取得了5.40%和4.52%的绝对性能提升。此外，在未进行微调的情况下，该方法在指代视频分割任务上也展现出强大的泛化能力，例如在Ref-DAVIS17数据集上取得了61.5%的J&F（交并比与F值的联合指标），表现具有竞争力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供