11일 전

눈을 즐기세요: 다중 모달 대규모 언어 모델을 위한 해상도 혼합 적응

Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
눈을 즐기세요: 다중 모달 대규모 언어 모델을 위한 해상도 혼합 적응
초록

현존하는 다중모달 대규모 언어모델(MLLMs)은 놀라운 진전을 이루었음에도 불구하고, 세부적인 시각 인식 능력에서 여전히 한계를 보이고 있다. 기존 연구들과는 달리, 본 연구는 이미지 해상도의 관점에서 이 문제를 탐구하며, 저해상도와 고해상도 시각 특징의 조합이 이 단점을 효과적으로 완화할 수 있음을 밝혀냈다. 이러한 관찰을 바탕으로, 우리는 MLLMs를 위한 새로운 효율적인 방법을 제안한다. 이를 '해상도 혼합 적응(Mixture-of-Resolution Adaptation, MRA)'이라 명명한다. 특히 MRA는 서로 다른 해상도를 가진 이미지에 대해 두 개의 시각 경로를 활용하며, 새로운 '해상도 혼합 어댑터(MR-Adapters)'를 통해 고해상도 시각 정보를 저해상도 경로에 통합한다. 이 설계는 MLLMs의 입력 시퀀스 길이를 크게 단축시킨다. MRA의 타당성을 검증하기 위해, 최근 개발된 MLLM인 LLaVA에 이를 적용하여 새로운 모델인 LLaVA-HR을 개발하였다. 11개의 시각-언어(VL) 작업에서 광범위한 실험을 수행한 결과, LLaVA-HR은 8개의 VL 작업에서 기존 MLLMs를 능가하였으며, 특히 TextVQA에서 +9.4%의 성능 향상을 기록하였다. 더 중요한 점은, LLaVA-HR의 학습 및 추론 과정이 MRA를 통해 여전히 효율적으로 유지된다는 것이다. 예를 들어, 학습 시간은 20시간으로 유지되며, 추론 속도는 LLaVA-1.5 대비 3배 빠르다. 소스 코드는 다음 링크에서 공개된다: https://github.com/luogen1996/LLaVA-HR.

눈을 즐기세요: 다중 모달 대규모 언어 모델을 위한 해상도 혼합 적응 | 최신 연구 논문 | HyperAI초신경