Command Palette

Search for a command to run...

20일 전

다음 점 예측을 통한 어떤 것의 탐지

Qing Jiang Junan Huo Xingyu Chen Yuda Xiong Zhaoyang Zeng Yihao Chen Tianhe Ren Junzhi Yu Lei Zhang

다음 점 예측을 통한 어떤 것의 탐지

초록

객체 탐지 분야는 오랫동안 YOLO, DETR, Grounding DINO와 같은 전통적인 좌표 회귀 기반 모델에 의해 지배되어 왔다. 최근에는 다중 모달러 학습 모델(MLLM)을 활용하여 이 과제를 해결하려는 시도가 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면해 있다. 본 연구에서는 이러한 격차를 해소하고, 30억 규모의 MLLM인 Rex-Omni를 제안한다. 이 모델은 COCO 및 LVIS와 같은 기준 평가 데이터셋에서, 회귀 기반 모델(예: DINO, Grounding DINO)과 비교해도 동등하거나 이를 초월하는 제로샷(zero-shot) 성능을 달성한다. 이 성과는 세 가지 핵심 설계 요소에 의해 가능해졌다. 첫째, 작업 형식(Task Formulation): 0에서 999까지의 양자화된 좌표를 표현하기 위해 특수 토큰을 사용함으로써, 모델의 학습 난이도를 낮추고 좌표 예측에 있어 토큰 효율성을 향상시켰다. 둘째, 데이터 엔진(Data Engines): 고품질의 지문(grounding), 참조(referencing), 지시(pointing) 데이터를 생성하기 위해 다수의 데이터 엔진을 구축하여, 풍부한 의미적 지도 정보를 학습에 제공한다. 셋째, 학습 파이프라인(Training Pipelines): 2,200만 개의 데이터를 기반으로 한 지도 미세조정(supervised fine-tuning, SFT)과 GRPO 기반 강화 학습 기반 후처리 학습을 결합한 이중 단계 학습 프로세스를 도입하였다. 이 강화 학습 후처리 단계는 기하학적 인지 보상(geometric-aware rewards)을 활용하여 이산적-연속적 좌표 예측 간의 격차를 효과적으로 해소하고, 박스 정확도를 향상시키며, 초기 SFT 단계의 교사 유도(teacher-guided) 특성에서 기인하는 중복 예측과 같은 바람직하지 않은 행동을 완화한다. 전통적인 객체 탐지 외에도, Rex-Omni의 내재된 언어 이해 능력은 객체 참조, 지시, 시각적 프롬프팅, GUI 지문, 공간적 참조, OCR, 키포인트 추출 등 다양한 능력을 제공하며, 각각 전용 평가 벤치마크를 통해 체계적으로 평가되었다. 우리는 Rex-Omni가 더 다재다능하고 언어 인식 능력을 갖춘 시각 인식 시스템의 발전을 이끄는 길을 열었다고 믿는다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다음 점 예측을 통한 어떤 것의 탐지 | 연구 논문 | HyperAI초신경