Command Palette
Search for a command to run...
GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출
GroundingME: 다차원 평가를 통한 MLLM의 시각적 기반 갭 노출
초록
시각적 기반(Visual grounding)은 자연어 설명을 통해 객체를 식별하는 기술로, 언어 이해와 시각 인식 간의 핵심 다리 역할을 한다. 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 기존 벤치마크에서 놀라운 성능을 기록하고 있으나, 핵심적인 질문이 여전히 남아 있다. 즉, MLLMs는 인간처럼 정교한 방식으로 언어를 시각 정보에 기반시키는가, 아니면 단순화된 데이터셋에서 패턴 매칭에 그치는 것인가? 현재의 벤치마크는 인간이 모호한 언급을 자연스럽게 처리하고, 기반화가 불가능한 상황을 인식하는 실제 세계의 복잡성을 충분히 반영하지 못한다. MLLMs의 진정한 능력을 엄격하게 평가하기 위해 우리는 네 가지 핵심 차원에서 모델을 체계적으로 도전하는 GroundingME 벤치마크를 제안한다. 첫째, 유사한 객체들을 구분하는 능력(구분성, Discriminative), 둘째, 복잡한 공간적 관계를 이해하는 능력(공간성, Spatial), 셋째, 가림이나 소형 객체와 같은 제한된 조건을 다루는 능력(제한성, Limited), 넷째, 기반화가 불가능한 질의를 인식하는 능력(거부성, Rejection). 자동 생성과 인간 검증을 결합한 신중한 예제 수집을 통해 실제 세계의 복잡성을 반영하는 총 1,005개의 도전적인 예제를 구성하였다. 평가 대상으로 25개의 최첨단 MLLMs를 분석한 결과, 극심한 능력 격차가 드러났다. 최고 성능 모델도 정확도가 45.1%에 불과했으며, 대부분의 모델은 거부 작업에서 0%의 성능을 기록하며, 존재하지 않는 객체를 강제로 창출하는 환각 현상을 반복했다. 이는 실제 적용 시 중요한 안전성 문제를 제기한다. 이를 개선하기 위한 두 가지 전략을 탐구하였다. 첫째, 테스트 시 스케일링 기법은 사고 경로(thinking trajectory)를 통해 최적의 응답을 선택함으로써 복잡한 기반화 성능을 최대 2.9% 향상시켰고, 둘째, 데이터 믹스 트레이닝은 모델이 기반화 불가능한 질의를 인식하도록 교육하여 거부 정확도를 0%에서 27.9%로 끌어올렸다. 따라서 GroundingME는 MLLMs의 현재 한계를 진단하는 도구이자, 인간 수준의 시각적 기반 달성을 위한 방향성을 제시하는 로드맵으로서 중요한 역할을 한다.