Command Palette
Search for a command to run...
시각 언어 모델(VLM)
날짜
태그
시각-언어 모델(VLM)은 이미지/비디오 정보와 텍스트 정보를 동시에 이해하고 처리할 수 있는 인공지능 모델입니다. 이미지 설명, 시각적 질의응답, 이미지-텍스트 검색과 같은 복잡한 작업을 수행할 수 있으며, 콘텐츠 분석, 지능형 비서, 로봇 공학 등 다양한 분야에서 널리 활용되고 있습니다.
일반적인 VLM 아키텍처는 명확한 3계층 정보 처리 흐름을 따릅니다. 비주얼 인코더(예: ViT)는 입력 이미지를 추상적인 시각적 특징 벡터로 변환하고, 프로젝션 계층(예: 선형 계층 또는 Q-Former)은 이러한 시각적 특징을 언어 모델의 의미 공간에 정렬하며, 최종적으로 완성된 언어 모델은 정렬된 특징과 텍스트 명령어를 받아 통합적인 이해, 추론 및 콘텐츠 생성을 수행합니다.