시크라: 다중모달 LLM의 참조 대화 기술을 해방하다

인간 간의 대화에서 사람들은 상대방에게 특정 장면 내의 관련 영역을 가리키며 의사소통할 수 있다. 이에 따라 상대방은 필요 시 특정 영역을 언급하여 응답할 수 있다. 이러한 대화 속에서 자연스럽게 참조하는 능력은 현재의 다모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)에서는 여전히 부족한 상태이다. 이러한 격차를 메우기 위해 본 논문은 공간 좌표 입력 및 출력을 자연어 형태로 처리할 수 있는 MLLM인 Shikra를 제안한다. Shikra의 아키텍처는 비전 인코더, 어휘 정렬 레이어, 그리고 대규모 언어 모델(LLM)로 구성되어 있으며, 추가적인 어휘, 위치 인코더, 사전/사후 탐지 모듈, 외부 플러그인 모델 없이도 간단하고 직관적인 구조를 갖추고 있다. 모든 입력과 출력은 자연어 형태로 이루어진다. 참조 대화는 다양한 시각-언어(Vision-Language, VL) 작업의 집합체에 해당하며, Shikra는 REC 및 PointQA와 같은 위치 관련 작업은 물론, 이미지 설명(Image Captioning) 및 VQA와 같은 전통적인 VL 작업도 자연스럽게 처리할 수 있다. 실험 결과를 통해 Shikra의 뛰어난 성능이 입증되었다. 더불어, 사고의 흐름 속에서 언급된 객체의 좌표를 제공하거나 사용자가 지정한 영역 간 유사도를 비교하는 등 다양한 흥미로운 응용이 가능하다. 코드, 모델 및 데이터셋은 https://github.com/shikras/shikra 에서 접근할 수 있다.