날짜

6달 전

조직

Paper URL

2512.17495

라이선스

Other

태그

LLM

다중모달

자연어 처리

GroundingME는 멀티모달 대규모 언어 모델(MLLM)을 위한 시각적 참조 평가 데이터셋으로, 2025년 칭화대학교가 샤오미, 홍콩대학교 등과 협력하여 발표했습니다. 관련 연구 논문으로는 다음과 같은 것들이 있습니다... GroundingME: 다차원적 평가를 통해 MLLM의 시각적 접지 격차를 드러내다본 연구의 목표는 모호한 참조, 복잡한 공간 관계, 작은 목표물, 가림 현상, 비참조성 등의 상황에서 이해도 및 안전성을 중점적으로 평가하여, 실제 복잡한 시나리오에서 자연어를 시각적 목표물에 정확하게 매핑하는 모델의 능력을 체계적으로 검증하는 것입니다. 이 데이터셋은 1,005개의 평가 샘플로 구성되어 있습니다. 이미지는 고품질 데이터셋인 SA-1B와 HR-Bench에서 가져왔으며, 데이터 오염을 방지하기 위해 원본 이미지만을 사용하여 과제를 구성했습니다. 샘플은 크게 네 가지 주요 과제 범주로 나뉩니다. 판별 참조(204개 샘플, TP3T 20.31), 공간 관계 이해(300개 샘플, TP3T 29.91), 제한된 시야 장면(300개 샘플, TP3T 29.91), 비참조 거부 과제(201개 샘플, TP3T 20.01)이며, 각 범주는 다시 12개의 하위 과제로 세분화되어 전체적으로 균형 있게 분포되어 있습니다. 데이터셋은 241개의 실제 객체 클래스를 포함합니다. 하나의 이미지에 동일 클래스의 객체가 다수 존재하며, 객체 인스턴스는 일반적으로 이미지에서 작은 비율을 차지합니다. 언어 설명의 길이는 기존 참조 데이터셋보다 훨씬 길어, 다차원적인 시각 참조 과제의 난이도가 크게 높아졌습니다.

소환

@article{li2025groundingme, 제목={GroundingME: 다차원 평가를 통해 MLLM의 시각적 접지 격차를 드러내다} 작성자={Li, Rang 및 Li, Lei 및 Ren, Shuhuai 및 Tian, Hao 및 Gu, Shuhao 및 Li, Shicheng 및 Yue, Zihao 및 Wang, Yudong 및 Ma, Wenhan 및 Yang, Zhe 및 기타} 저널={arXiv 사전출판물 arXiv:2512.17495}, 연도={2025} }

이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.