11일 전

InfiMM-HD: 고해상도 다중모달 이해의 한 걸음 앞선 도약

Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
InfiMM-HD: 고해상도 다중모달 이해의 한 걸음 앞선 도약
초록

최근 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)은 상당한 발전을 이뤘다. 그러나 고해상도 이미지 내 복잡한 세부 정보를 정확히 인식하고 이해하는 데는 여전히 도전 과제가 존재한다. 강력한 MLLMs 개발에 있어 이 영역은 필수적이지만, 여전히 연구가 부족한 상태이다. 이러한 문제를 해결하기 위해, 본 연구는 다양한 해상도의 이미지를 처리하기 위해 특별히 설계된 새로운 아키텍처인 InfiMM-HD를 제안한다. 이 아키텍처는 낮은 계산 부담으로 고해상도 처리 능력을 확장할 수 있도록 지원한다. InfiMM-HD는 교차 주의( cross-attention) 모듈과 시각적 창(visual windows)을 도입하여 계산 비용을 줄이는 데 기여한다. 이러한 아키텍처를 사단계 학습 파이프라인과 결합함으로써, 모델은 효율적이고 비용 효율적인 방식으로 향상된 시각 인지 능력을 달성한다. 실증적 연구를 통해 InfiMM-HD의 강건성과 효과성이 입증되었으며, 관련 분야에서 새로운 탐색의 길을 열었다. 코드와 모델은 https://huggingface.co/Infi-MM/infimm-hd 에서 확인할 수 있다.

InfiMM-HD: 고해상도 다중모달 이해의 한 걸음 앞선 도약 | 최신 연구 논문 | HyperAI초신경