16일 전

LLaVA-UHD: 고해상도 이미지 및 다양한 비율을 인지하는 LMM

Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang
LLaVA-UHD: 고해상도 이미지 및 다양한 비율을 인지하는 LMM
초록

시각 인코딩은 대규모 다중모달 모델(LMM)이 시각 세계를 이해하는 데 핵심적인 기반을 형성한다. 기존의 LMM은 이미지를 고정된 크기와 제한된 해상도로 처리하는 반면, 최근의 관련 연구는 적응성, 효율성, 심지어 정확성 측면에서 한계를 보이고 있다. 본 연구에서는 GPT-4V와 LLaVA-1.5를 대표적인 사례로 삼아, 그들의 시각 인코딩 전략에 뿌리 깊은 체계적 결함을 드러낸다. 이러한 문제를 해결하기 위해, 어떠한 종횡비와 고해상도 이미지도 효율적으로 인식할 수 있는 대규모 다중모달 모델인 LLaVA-UHD를 제안한다. LLaVA-UHD는 세 가지 핵심 구성 요소를 포함한다: (1) 원본 해상도 이미지를 더 작은 크기의 가변 슬라이스로 분할하는 이미지 모듈화 전략, 이를 통해 효율적이고 확장 가능한 인코딩이 가능하다; (2) 시각 인코더에서 생성된 이미지 토큰을 추가로 압축하는 압축 모듈; (3) LLM에 적합하도록 슬라이스 토큰을 조직화하는 공간적 구조(schema). 광범위한 실험 결과에 따르면, LLaVA-UHD는 2~3배 이상 더 많은 데이터로 훈련된 기존의 LMM보다 9개의 벤치마크에서 모두 우수한 성능을 보였다. 특히, LLaVA-1.5 336x336 기반 모델은 단지 94%의 추론 계산량으로 6배 더 큰 해상도(672x1088)의 이미지를 처리할 수 있으며, TextVQA에서 정확도가 6.4% 향상되었다. 또한 모델은 학계 환경에서도 효율적으로 훈련 가능하며, 8개의 A100 GPU에서 약 23시간 내에 완료할 수 있다(비교 기준인 LLaVA-1.5는 26시간 소요). 연구에 사용된 데이터와 코드는 공개적으로 제공되며, GitHub 페이지에서 확인할 수 있다: https://github.com/thunlp/LLaVA-UHD.

LLaVA-UHD: 고해상도 이미지 및 다양한 비율을 인지하는 LMM | 최신 연구 논문 | HyperAI초신경