Command Palette
Search for a command to run...
Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

摘要
目标检测长期以来主要由基于传统坐标回归的模型主导,例如 YOLO、DETR 和 Grounding DINO。尽管近期已有研究尝试利用多模态大语言模型(MLLM)来解决该任务,但仍面临召回率低、预测重复、坐标错位等问题。在本工作中,我们弥补了这一差距,提出了一种规模达 30 亿参数的 MLLM——Rex-Omni,其在目标感知性能上达到了当前最先进水平。在 COCO 和 LVIS 等基准测试中,Rex-Omni 在零样本(zero-shot)设置下的表现可与或超越基于回归的模型(如 DINO、Grounding DINO)。这一性能的实现得益于三个关键设计:1)任务建模:我们采用特殊标记来表示从 0 到 999 的量化坐标,显著降低了模型的学习难度,并提升了坐标预测的 token 效率;2)数据引擎:我们构建了多个数据引擎,用于生成高质量的定位(grounding)、指代(referring)和指向(pointing)数据,为训练提供语义丰富的监督信号;3)训练流程:我们采用两阶段训练策略,首先在 2200 万条数据上进行监督微调(SFT),随后通过基于 GRPO(Generalized Reward Policy Optimization)的强化学习后训练(post-training)。该强化学习阶段引入几何感知奖励机制,有效弥合了离散到连续坐标预测之间的鸿沟,提升了边界框精度,并缓解了因初始 SFT 阶段依赖教师指导而引发的重复预测等不良行为。除了传统的目标检测能力外,Rex-Omni 本身具备的语言理解能力还赋予其多样化的泛化能力,包括对象指代、视觉指向、视觉提示(visual prompting)、GUI 定位、空间指代、OCR 识别以及关键点定位等,所有这些能力均在专用基准上进行了系统性评估。我们相信,Rex-Omni 为构建更通用、更具语言感知能力的视觉感知系统开辟了新的路径。