11일 전
InfiMM-HD: 고해상도 다중모달 이해의 한 걸음 앞선 도약
Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang

초록
최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 상당한 발전을 이뤘다. 그러나 고해상도 이미지 내 복잡한 세부 정보를 정확히 인식하고 이해하는 데는 여전히 도전 과제가 존재한다. 강력한 MLLMs 개발에 있어 이 영역은 필수적이지만, 여전히 연구가 부족한 상태이다. 이러한 문제를 해결하기 위해, 본 연구는 다양한 해상도의 이미지를 처리하기 위해 특별히 설계된 새로운 아키텍처인 InfiMM-HD를 제안한다. 이 아키텍처는 낮은 계산 부담으로 고해상도 처리 능력을 확장할 수 있도록 지원한다. InfiMM-HD는 교차 주의( cross-attention) 모듈과 시각적 창(visual windows)을 도입하여 계산 비용을 줄이는 데 기여한다. 이러한 아키텍처를 사단계 학습 파이프라인과 결합함으로써, 모델은 효율적이고 비용 효율적인 방식으로 향상된 시각 인지 능력을 달성한다. 실증적 연구를 통해 InfiMM-HD의 강건성과 효과성이 입증되었으며, 관련 분야에서 새로운 탐색의 길을 열었다. 코드와 모델은 https://huggingface.co/Infi-MM/infimm-hd 에서 확인할 수 있다.