14 天前

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou

摘要

我们提出 SimpleSeg，一种简洁而高效的方法，用于赋予多模态大语言模型（MLLMs）原生的像素级感知能力。我们的方法将图像分割重构为一个简单的序列生成问题：模型直接在语言空间内预测描述目标边界的点序列（以文本形式表示的坐标），无需依赖额外的视觉处理模块。为实现高精度，我们设计了一种两阶段的 SF $o$ RL 训练流程，其中基于交并比（IoU）奖励的强化学习机制对点序列进行优化，使其精准匹配真实边界轮廓。我们发现，标准的 MLLM 架构本身具备强大的底层感知能力，仅通过适当训练即可释放这一潜力，而无需引入专用的视觉架构。在多个分割基准测试中，SimpleSeg 的性能与现有复杂、任务定制化方法相当，且在多数情况下更优。本研究表明，仅通过简单的点预测即可实现精确的空间理解，挑战了当前对辅助组件的依赖，为构建更加统一且强大的视觉语言模型（VLMs）开辟了新路径。项目主页：https://simpleseg.github.io/

一句话总结

来自月之暗面AI与南京大学的研究人员提出了SimpleSeg，这是一种极简方法，使多模态大语言模型（MLLM）能够在语言空间中通过点序列预测实现像素级分割，并通过SFT→RL训练结合IoU奖励机制增强性能，超越复杂架构，证明空间理解能力可自然从标准模型中涌现。

主要贡献

SimpleSeg使MLLM能够通过预测描述对象边界的文本坐标序列实现像素级分割，无需专用解码器或辅助组件，完全在语言空间内运行。
该方法引入两阶段SFT→RL训练流程，其中基于IoU奖励的强化学习优化点序列以匹配真实轮廓，无需修改架构即可释放MLLM的细粒度感知潜力。
在refCOCO等基准测试中，SimpleSeg表现媲美或超越复杂且任务特定的方法，展现出跨领域与跨分辨率的强大泛化能力，同时保持可解释性与组合推理能力。

引言

作者利用标准多模态大语言模型（MLLM）将像素级分割视为序列生成任务——在模型原生语言空间内预测追踪对象边界的文本坐标。先前方法要么添加破坏架构统一性的复杂任务专用解码器，要么将掩码序列化为文本，牺牲分辨率与可解释性。SimpleSeg的主要贡献是一种极简、无解码器的方法，通过两阶段SFT→RL训练流程（使用IoU奖励优化点序列）实现高保真感知。这表明MLLM本身具备细粒度空间推理能力，无需架构修改即可激活，从而实现跨多样化视觉领域的统一、可解释且泛化能力强的像素级理解。

数据集

作者使用大规模开源与网络数据进行预训练，主要为LAION和Coyo，所有样本均通过第3.1节所述流程标注。
对于SFT阶段，他们从refCOCO、refCOCO+、refCOCOg和refCLEF的训练集构建了80万样本的数据集，遵循Text4Seg的处理协议。
对于RL阶段，他们从相同的RefCOCO系列中提取40万样本的提示集，保持数据来源一致。
表1和表2中的所有基准结果均仅使用在SFT和RL阶段（RefCOCO数据集）训练的模型，以确保与SOTA方法公平比较。
使用网络数据（LAION/Coyo）的预训练仅用于扩展性和消融分析，结果见表3。
元数据包括图像级描述与多边形坐标配对，如SimpleSeq示例所示：对象描述后接像素级精确的多边形坐标列表。

方法

作者采用一种简单而有效的框架SimpleSeg，通过点预测机制赋予标准多模态大语言模型（MLLM）原生像素级感知能力。核心设计是将分割输出表示为显式的二维坐标序列（即点轨迹），完全在语言空间内生成。该方法无需解码器且与架构无关，支持将点、边界框和掩码作为文本输出统一处理。框架通过预测归一化坐标序列追踪目标对象边界，避免了密集像素编码的需求。这种表示方式具有可解释性、可与其他文本输入组合，并支持随顶点数线性扩展的可控token预算，而非随图像分辨率扩展。

如图所示，数据标注流程旨在利用大规模网络数据扩展框架。流程始于网络数据，经Grounding-DINO处理进行对象检测以识别实例，再将检测到的对象输入SAM生成分割掩码。这些二值掩码通过轮廓提取算法转换为多边形轮廓，强制采用顺时针遍历顺序，并可选地应用稀疏化处理。最终的点序列与由视觉-语言模型（VLM）生成的文本描述结合，形成结构化训练数据。该流程可生成多样化的指令-响应对，使模型学会根据文本提示生成适当的点轨迹。

任务形式化将所有输出（点、边界框、掩码）统一视为文本token。掩码表示为点轨迹，边界被稀疏采样为归一化坐标序列。该表示通过最小化的类JSON语法约束输出格式，确保生成序列结构良好且可解析。框架支持多种定位查询，如根据文本描述预测边界框，或根据点生成多边形。该设计通过重组弱标签（如从掩码中提取点或框）增加监督来源，并标准化输出以支持指令微调与强化学习。

训练流程分为两个阶段。第一阶段为监督微调（SFT），通过整理文本到点、文本到边界框、文本/点到掩码等任务的指令-响应对冷启动模型。该阶段教会模型生成正确的输出格式，包括坐标语法、闭合括号与一致顺序，同时学习基础定位先验。第二阶段采用强化学习（RL）优化序列级、位置感知的目标。作者采用GSPO作为RL算法，使用基于规则的奖励系统，包括：Mask IoU奖励（衡量预测与真实掩码的交并比）、MSE距离IoU奖励（惩罚质心错位）和格式奖励（强制正确输出结构）。该RL阶段使模型发现替代的有效轨迹，提升边界保真度与闭合性，避免过拟合特定标注。

实验

在Qwen2.5-VL-7B和Kimi-VL上使用32张GPU、Muon优化器、带稀疏容差ε的多边形序列化进行验证；SFT与RL阶段使用特定学习率及GSPO优化。
在指代表达理解（REC）任务中取得87.2 [email protected]的SOTA成绩，优于Text4Seg（无掩码精修器）；在RES任务中匹配基于解码器的方法，且无解码器性能更优。
消融实验表明，仅SFT阶段获得约60–65.5 gIoU；RL阶段增加+9.7–10.5 gIoU，证实IoU奖励提升多边形精度与token效率；预训练使refCOCO上的SFT+RL提升13.0 gIoU。
最优ε值平衡token长度与几何保真度：221 token（ε=0.005）达到峰值cIoU；过少（78 token）或过多（859 token）均降低性能。
顺时针点序对生成有效多边形至关重要；无序或替代序列导致混乱输出与token效率降低。
扩展至SAM类任务（点→掩码、框→掩码、文本→框）表现良好泛化能力，附录提供视觉结果。
局限性：在高分辨率、弯曲物体及锐角处激进稀疏化下表现不佳；未来工作应纳入边界F-score与顶点级指标。

结果表明，加入距离奖励可提升所有数据集性能，gIoU得分约提高0.2。然而，加入长度惩罚会降低性能，表明对序列长度的硬约束损害分割精度。

结果表明，SimpleSeg在指代表达分割基准上表现优异，优于其他无解码器模型，且匹配或超越基于解码器的方法。作者采用极简无解码器方法，利用大语言模型生成多边形坐标，展示无需架构修改即可实现强细粒度感知。

作者使用增强版Muon优化器，最大学习率为5e-5，最小学习率为2e-6，余弦衰减调度器，预热比例为0.03。训练使用全局批大小256，每轮80万样本，共训练1轮。

结果表明，监督微调与强化学习的结合显著提升指代表达分割性能，完整训练流程在所有数据集上取得最高分。消融研究表明，强化学习贡献最大，而单独预训练在无后续微调时无效。

结果表明，SimpleSeg在指代表达分割基准上表现优异，优于无解码器模型，且匹配或超越基于解码器的方法。模型在refCOCO、refCOCO+和refCOCOg数据集上的优异表现，证明其无需架构修改即可实现有效细粒度感知。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

14 天前

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou

摘要

一句话总结

主要贡献

SimpleSeg使MLLM能够通过预测描述对象边界的文本坐标序列实现像素级分割，无需专用解码器或辅助组件，完全在语言空间内运行。
该方法引入两阶段SFT→RL训练流程，其中基于IoU奖励的强化学习优化点序列以匹配真实轮廓，无需修改架构即可释放MLLM的细粒度感知潜力。
在refCOCO等基准测试中，SimpleSeg表现媲美或超越复杂且任务特定的方法，展现出跨领域与跨分辨率的强大泛化能力，同时保持可解释性与组合推理能力。

引言

数据集

作者使用大规模开源与网络数据进行预训练，主要为LAION和Coyo，所有样本均通过第3.1节所述流程标注。
对于SFT阶段，他们从refCOCO、refCOCO+、refCOCOg和refCLEF的训练集构建了80万样本的数据集，遵循Text4Seg的处理协议。
对于RL阶段，他们从相同的RefCOCO系列中提取40万样本的提示集，保持数据来源一致。
表1和表2中的所有基准结果均仅使用在SFT和RL阶段（RefCOCO数据集）训练的模型，以确保与SOTA方法公平比较。
使用网络数据（LAION/Coyo）的预训练仅用于扩展性和消融分析，结果见表3。
元数据包括图像级描述与多边形坐标配对，如SimpleSeq示例所示：对象描述后接像素级精确的多边形坐标列表。

方法

实验

在Qwen2.5-VL-7B和Kimi-VL上使用32张GPU、Muon优化器、带稀疏容差ε的多边形序列化进行验证；SFT与RL阶段使用特定学习率及GSPO优化。
在指代表达理解（REC）任务中取得87.2 [email protected]的SOTA成绩，优于Text4Seg（无掩码精修器）；在RES任务中匹配基于解码器的方法，且无解码器性能更优。
消融实验表明，仅SFT阶段获得约60–65.5 gIoU；RL阶段增加+9.7–10.5 gIoU，证实IoU奖励提升多边形精度与token效率；预训练使refCOCO上的SFT+RL提升13.0 gIoU。
最优ε值平衡token长度与几何保真度：221 token（ε=0.005）达到峰值cIoU；过少（78 token）或过多（859 token）均降低性能。
顺时针点序对生成有效多边形至关重要；无序或替代序列导致混乱输出与token效率降低。
扩展至SAM类任务（点→掩码、框→掩码、文本→框）表现良好泛化能力，附录提供视觉结果。
局限性：在高分辨率、弯曲物体及锐角处激进稀疏化下表现不佳；未来工作应纳入边界F-score与顶点级指标。

结果表明，加入距离奖励可提升所有数据集性能，gIoU得分约提高0.2。然而，加入长度惩罚会降低性能，表明对序列长度的硬约束损害分割精度。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

通过简单点预测实现像素级VLM感知

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou1 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过简单点预测实现像素级VLM感知

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou1 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

通过简单点预测实现像素级VLM感知

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou1 more

摘要

一句话总结

主要贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou

Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu Zaida Zhou Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou