7일 전
객체 위치 학습이 시각-LLM의 공간 인지 능력 향상에 기여한다
Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin

초록
시각 영역 작업에 대규모 언어 모델(Large Language Models, LLMs)을 통합함으로써 등장한 시각-언어 모델(V-LLMs)은 특히 시각 질문 응답(VQA)과 같은 시각-언어 작업에서 뛰어난 성능을 보여주고 있다. 그러나 기존의 V-LLMs(예: BLIP-2, LLaVA)는 공간적 추론 능력과 위치 인식 능력이 약하다는 문제가 있다. 이러한 모델들은 풍부하고 세밀한 텍스트 응답을 생성할 수는 있지만, 좌측과 우측 위치를 구분하는 등의 간단한 작업에서는 실패하는 경우가 많다. 본 연구에서는 이미지 공간 좌표 기반의 지시 미세조정 목표함수(instruction fine-tuning objectives)가 V-LLMs에 공간 인식 능력을 주입할 수 있는지 탐구한다. 우리는 최적의 좌표 표현 방식, 데이터 효율적인 지시 미세조정 목표함수, 그리고 의사 데이터( pseudo-data) 생성 전략을 발견하였으며, 이러한 요소들이 V-LLMs의 공간 인식 능력을 향상시키는 데 기여함을 확인하였다. 또한, 본 연구에서 개발된 모델은 이미지 및 영상 영역에서 VQA 성능을 개선하고, 부적절한 환상(hallucination)을 줄이며, 더 나은 맥락 기반 개체 설명을 생성하는 데 성공하였다. 14개의 다양한 데이터셋을 포함한 5개의 시각-언어 작업에서 수행된 실험을 통해 제안하는 프레임워크가 명확한 성능 향상을 달성함을 입증하였다.