Command Palette
Search for a command to run...
Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

초록
객체 탐지 분야는 오랫동안 YOLO, DETR, Grounding DINO와 같은 전통적인 좌표 회귀 기반 모델에 의해 지배되어 왔다. 최근에는 다중 모달러 학습 모델(MLLM)을 활용하여 이 과제를 해결하려는 시도가 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면해 있다. 본 연구에서는 이러한 격차를 해소하고, 30억 규모의 MLLM인 Rex-Omni를 제안한다. 이 모델은 COCO 및 LVIS와 같은 기준 평가 데이터셋에서, 회귀 기반 모델(예: DINO, Grounding DINO)과 비교해도 동등하거나 이를 초월하는 제로샷(zero-shot) 성능을 달성한다. 이 성과는 세 가지 핵심 설계 요소에 의해 가능해졌다. 첫째, 작업 형식(Task Formulation): 0에서 999까지의 양자화된 좌표를 표현하기 위해 특수 토큰을 사용함으로써, 모델의 학습 난이도를 낮추고 좌표 예측에 있어 토큰 효율성을 향상시켰다. 둘째, 데이터 엔진(Data Engines): 고품질의 지문(grounding), 참조(referencing), 지시(pointing) 데이터를 생성하기 위해 다수의 데이터 엔진을 구축하여, 풍부한 의미적 지도 정보를 학습에 제공한다. 셋째, 학습 파이프라인(Training Pipelines): 2,200만 개의 데이터를 기반으로 한 지도 미세조정(supervised fine-tuning, SFT)과 GRPO 기반 강화 학습 기반 후처리 학습을 결합한 이중 단계 학습 프로세스를 도입하였다. 이 강화 학습 후처리 단계는 기하학적 인지 보상(geometric-aware rewards)을 활용하여 이산적-연속적 좌표 예측 간의 격차를 효과적으로 해소하고, 박스 정확도를 향상시키며, 초기 SFT 단계의 교사 유도(teacher-guided) 특성에서 기인하는 중복 예측과 같은 바람직하지 않은 행동을 완화한다. 전통적인 객체 탐지 외에도, Rex-Omni의 내재된 언어 이해 능력은 객체 참조, 지시, 시각적 프롬프팅, GUI 지문, 공간적 참조, OCR, 키포인트 추출 등 다양한 능력을 제공하며, 각각 전용 평가 벤치마크를 통해 체계적으로 평가되었다. 우리는 Rex-Omni가 더 다재다능하고 언어 인식 능력을 갖춘 시각 인식 시스템의 발전을 이끄는 길을 열었다고 믿는다.