2달 전
Qwen-VL: 다양한 시각-언어 모델로 이해, 위치 인식, 텍스트 읽기 및 그 이상을 실현하다
Bai, Jinze ; Bai, Shuai ; Yang, Shusheng ; Wang, Shijie ; Tan, Sinan ; Wang, Peng ; Lin, Junyang ; Zhou, Chang ; Zhou, Jingren

초록
본 연구에서는 텍스트와 이미지를 인식하고 이해할 수 있도록 설계된 대규모 시각-언어 모델(LVLMs)인 Qwen-VL 시리즈를 소개합니다. Qwen-LM을 기반으로 하여, (i) 시각 수용체, (ii) 입력-출력 인터페이스, (iii) 3단계 학습 파이프라인, 그리고 (iv) 다국어 다모달 정제 코퍼스를 철저히 설계하여 이를 시각적 능력으로 부여하였습니다. 기존의 이미지 설명과 질문 응답을 넘어, 이미지-캡션-박스 튜플을 맞춤으로써 Qwen-VL의 지시물 정합 및 텍스트 읽기 능력을 구현하였습니다. 이로 인해 생성된 모델들, 즉 Qwen-VL과 Qwen-VL-Chat은 유사한 모델 규모의 일반적인 모델들이 다양한 시각 중심 벤치마크(예: 이미지 캡셔닝, 질문 응답, 시각적 정합)와 다양한 설정(예: 제로샷, 소수 샷)에서 새로운 기록을 세웠습니다. 또한 실제 대화 벤치마크에서도 우리의 지시물 조정된 Qwen-VL-Chat은 기존의 시각-언어 챗봇들에 비해 우월성을 보여주었습니다. 코드, 데모 및 모델은 https://github.com/QwenLM/Qwen-VL에서 제공됩니다.