2달 전

시각 언어 모델에서 시각적 기반 이해를 위한 탐구

Georgios Pantazopoulos Eda B. Özyiğit

초록

시각적 기반(visual grounding)이란 모델이 텍스트 설명과 일치하는 시각 입력 내 특정 영역을 식별할 수 있는 능력을 의미한다. 따라서 시각적 기반 기능을 갖춘 모델은 참조 표현 이해, 이미지나 영상의 미세한 세부 정보에 관련된 질문에 응답하는 것, 명시적으로 개체를 언급함으로써 시각적 맥락을 설명하는 것, 그리고 시뮬레이션 환경과 실제 환경에서의 저수준 및 고수준 제어에 이르기까지 다양한 분야에서 광범위한 응용 가능성을 지닌다. 본 논문에서는 최신의 일반 목적 시각-언어 모델(VLMs) 연구 분야의 핵심 주제들을 중심으로 대표적인 연구 성과들을 종합적으로 검토한다. 먼저 VLMs에서 기반의 중요성을 제시하고, 현재의 기반 모델 개발 패러다임의 핵심 구성 요소들을 명확히 정의한 후, 실용적 응용 사례를 살펴본다. 이 과정에서 기반 다중모달 생성을 평가하기 위한 벤치마크 및 평가 지표도 함께 논의한다. 또한 시각적 기반, 다중모달 사고 체인(chain-of-thought), VLMs 내 추론 간의 복합적인 상호관계를 탐색한다. 마지막으로, 시각적 기반 기술에 내재된 과제들을 분석하고, 향후 연구를 위한 유망한 방향성을 제시한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

시각 언어 모델에서 시각적 기반 이해를 위한 탐구

Georgios Pantazopoulos Eda B. Özyiğit

초록

AI로 AI 구축

Hyper Newsletters