2달 전

그라운드호그: 대형 언어 모델을 종합적 세분화에 근거시키기

Zhang, Yichi ; Ma, Ziqiao ; Gao, Xiaofeng ; Shakiah, Suhaila ; Gao, Qiaozi ; Chai, Joyce
그라운드호그: 대형 언어 모델을 종합적 세분화에 근거시키기
초록

대부분의 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 객체에 대한 언어 연결을 인과적 언어 모델링(Causal Language Modeling)을 통해 학습합니다. 이 과정에서 바운딩 박스로 표현된 위치 토큰 시퀀스로 객체가 포착됩니다. 그러나 이러한 패러다임은 세밀한 시각적 이해와 진단에 중요한 픽셀 수준의 표현이 부족합니다. 본 연구에서는 전반적인 분할(Holistic Segmentation)에 기반한 대형 언어 모델을 연결하여 개발한 GROUNDHOG을 소개합니다. GROUNDHOG은 마스크드 피처 추출기(Masked Feature Extractor)를 통합하고, 추출된 특징들을 시각적 엔티티 토큰으로 변환하여 MLLM의 기본 구조에 적용합니다. 이후 MLLM은 엔티티 마스크를 검색 및 병합하여 지상화 가능한 문구를 통합된 지상화 마스크에 연결합니다.GROUNDHOG을 훈련하기 위해, 우리는 다양한 분할 기반 데이터셋을 수집하여 풍부한 주석을 포함하는 Multi-Modal Multi-Grained Grounding(M3G2) 데이터셋을 신중하게 구성했습니다. 실험 결과, GROUNDHOG은 특정 작업에 대한 미세 조정 없이도 다양한 언어 지상화 작업에서 우수한 성능을 보였으며, 객체 환영(Object Hallucination) 현상을 크게 줄였습니다. 또한 GROUNDHOG은 복잡한 형태의 시각적 입력에 대해 더 나은 지상화를 제공하며, 실패 사례에서도 이해하기 쉬운 진단 정보를 제공합니다.

그라운드호그: 대형 언어 모델을 종합적 세분화에 근거시키기 | 최신 연구 논문 | HyperAI초신경