Command Palette
Search for a command to run...
Georgios Pantazopoulos Eda B. Özyiğit

초록
시각적 기반(visual grounding)이란 모델이 텍스트 설명과 일치하는 시각 입력 내 특정 영역을 식별할 수 있는 능력을 의미한다. 따라서 시각적 기반 기능을 갖춘 모델은 참조 표현 이해, 이미지나 영상의 미세한 세부 정보에 관련된 질문에 응답하는 것, 명시적으로 개체를 언급함으로써 시각적 맥락을 설명하는 것, 그리고 시뮬레이션 환경과 실제 환경에서의 저수준 및 고수준 제어에 이르기까지 다양한 분야에서 광범위한 응용 가능성을 지닌다. 본 논문에서는 최신의 일반 목적 시각-언어 모델(VLMs) 연구 분야의 핵심 주제들을 중심으로 대표적인 연구 성과들을 종합적으로 검토한다. 먼저 VLMs에서 기반의 중요성을 제시하고, 현재의 기반 모델 개발 패러다임의 핵심 구성 요소들을 명확히 정의한 후, 실용적 응용 사례를 살펴본다. 이 과정에서 기반 다중모달 생성을 평가하기 위한 벤치마크 및 평가 지표도 함께 논의한다. 또한 시각적 기반, 다중모달 사고 체인(chain-of-thought), VLMs 내 추론 간의 복합적인 상호관계를 탐색한다. 마지막으로, 시각적 기반 기술에 내재된 과제들을 분석하고, 향후 연구를 위한 유망한 방향성을 제시한다.