2달 전

CoLLaVO: 크레용 대형 언어 및 시각 모델

Byung-Kwan Lee; Beomchan Park; Chae Won Kim; Yong Man Ro
CoLLaVO: 크레용 대형 언어 및 시각 모델
초록

대형 언어 모델(LLM)과 지시문 조정의 뛰어난 성공은 시각-언어 모델(VLM)이 다목적 일반 모델로 진화하는 것을 이끌고 있습니다. 그러나 현재 VLM이 '이미지에 어떤 물체가 있는가?' 또는 '특정 경계 상자에 해당하는 물체는 무엇인가?'와 같은 물체 수준의 이미지 이해 능력을 실제로 갖추었는지는 아직 연구되지 않았습니다. 우리의 연구 결과는 현재 VLM의 이미지 이해 능력이 비전-언어(VL) 작업에서의 제로샷 성능과 강한 상관관계가 있음을 보여줍니다. 이는 기본적인 이미지 이해를 우선시하는 것이 VLM이 VL 작업에서 우수한 성과를 거두기 위한 핵심 요소임을 시사합니다. 물체 수준의 이미지 이해를 향상시키기 위해, 우리는 팬옵틱 컬러 맵을 기반으로 한 새로운 시각 프롬프트 조정 방식인 크레용 프롬프트(Crayon Prompt)를 통합한 크레용 대형 언어 및 시각 모델(CoLLaVO)을 제안합니다. 또한, 시각 지시문 조정 과정에서 물체 수준의 이미지 이해 능력을 잊지 않고 유지하기 위한 듀얼 QLoRA 학습 전략을 제시하여, 제로샷 설정에서 여러 VL 벤치마크에서 큰 발전을 이루었습니다.

CoLLaVO: 크레용 대형 언어 및 시각 모델 | 최신 연구 논문 | HyperAI초신경