HyperAIHyperAI

Command Palette

Search for a command to run...

GroundingME 복합 장면 이해 평가 데이터 세트

날짜

4달 전

조직

Tsinghua University(清华大学)
The University of Hong Kong
Xiaomi(小米)

Paper URL

2512.17495

라이선스

Other

GroundingME는 멀티모달 대규모 언어 모델(MLLM)을 위한 시각적 참조 평가 데이터셋으로, 2025년 칭화대학교가 샤오미, 홍콩대학교 등과 협력하여 발표했습니다. 관련 연구 논문으로는 다음과 같은 것들이 있습니다... GroundingME: 다차원적 평가를 통해 MLLM의 시각적 접지 격차를 드러내다본 연구의 목표는 모호한 참조, 복잡한 공간 관계, 작은 목표물, 가림 현상, 비참조성 등의 상황에서 이해도 및 안전성을 중점적으로 평가하여, 실제 복잡한 시나리오에서 자연어를 시각적 목표물에 정확하게 매핑하는 모델의 능력을 체계적으로 검증하는 것입니다. 이 데이터셋은 1,005개의 평가 샘플로 구성되어 있습니다. 이미지는 고품질 데이터셋인 SA-1B와 HR-Bench에서 가져왔으며, 데이터 오염을 방지하기 위해 원본 이미지만을 사용하여 과제를 구성했습니다. 샘플은 크게 네 가지 주요 과제 범주로 나뉩니다. 판별 참조(204개 샘플, TP3T 20.31), 공간 관계 이해(300개 샘플, TP3T 29.91), 제한된 시야 장면(300개 샘플, TP3T 29.91), 비참조 거부 과제(201개 샘플, TP3T 20.01)이며, 각 범주는 다시 12개의 하위 과제로 세분화되어 전체적으로 균형 있게 분포되어 있습니다. 데이터셋은 241개의 실제 객체 클래스를 포함합니다. 하나의 이미지에 동일 클래스의 객체가 다수 존재하며, 객체 인스턴스는 일반적으로 이미지에서 작은 비율을 차지합니다. 언어 설명의 길이는 기존 참조 데이터셋보다 훨씬 길어, 다차원적인 시각 참조 과제의 난이도가 크게 높아졌습니다.

데이터 세트 예제
데이터 세트 예제

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp