ConvLLaVA: 대규모 다중모달 모델을 위한 시각 인코더로서의 계층적 백본

고해상도 대규모 다중모달 모델(LMM)은 시각적 토큰의 과잉과 2차 시각 복잡성이라는 도전에 직면해 있다. 현재의 고해상도 LMM들은 2차 복잡성을 해결하고는 있으나, 여전히 과도한 시각적 토큰을 생성하고 있다. 그러나 시각적 토큰의 중복은 계산 자원의 과도한 소비로 이어지는 핵심 문제이다. 이 문제를 완화하기 위해 우리는 시각 인코더로서 Vision Transformer(ViT)를 대체하기 위해 계층적 아키텍처인 ConvNeXt를 활용하는 ConvLLaVA를 제안한다. ConvLLaVA는 고해상도 이미지를 정보 밀도가 높은 시각적 특징으로 압축함으로써 과도한 시각적 토큰 생성을 효과적으로 방지한다. 또한 ConvLLaVA의 성능을 향상시키기 위해 두 가지 핵심 최적화 기법을 제안한다. 먼저, 저해상도에서 사전 훈련된 ConvNeXt는 고해상도 입력에 직접 적용될 경우 성능이 저하되므로, 이를 보완하기 위해 모델을 업데이트한다. 또한 ConvNeXt의 원래 압축 비율은 훨씬 더 높은 해상도의 입력에 대해 부족하므로, 추가적인 단계를 훈련하여 시각적 토큰을 더 강력하게 압축함으로써 중복을 줄인다. 이러한 최적화를 통해 ConvLLaVA는 1536×1536 해상도의 입력을 처리하면서 단 576개의 시각적 토큰만 생성할 수 있으며, 임의의 종횡비를 가진 이미지 처리가 가능하다. 실험 결과, 제안한 방법은 주요 벤치마크에서 최신 기술 수준의 모델들과 경쟁 가능한 성능을 달성하였다. ConvLLaVA 모델 시리즈는 공개적으로 https://github.com/alibaba/conv-llava 에서 제공된다.