DeepStack: 깊이 겹친 시각적 토큰은 LMMs에 대해 놀랍도록 간단하고 효과적이다

대부분의 대규모 다중모달 모델(LMMs)은 시각적 토큰을 시퀀스 형태로 대규모 언어 모델(LLM)의 첫 번째 레이어에 입력함으로써 구현된다. 이 구조는 간단하지만, 입력 레이어에서 추가적인 토큰 수천 개를 처리해야 하므로 계산 및 메모리 비용이 크게 증가한다. 본 논문에서는 LMMs를 위한 새로운 아키텍처인 DeepStack을 제안한다. LMMs의 언어 및 비전 트랜스포머에 각각 $N$개의 레이어가 있다고 가정할 때, 시각적 토큰을 $N$개의 그룹으로 나누어 각 그룹을 해당되는 트랜스포머 레이어에 하단에서 상단으로 순차적으로 입력한다. 놀랍게도, 이 간단한 방법은 레이어 간 시각적 토큰 간 상호작용을 모델링하는 능력을 크게 향상시키지만, 추가적인 비용은 극히 미미하다. DeepStack은 LMMs의 언어 및 비전 트랜스포머 모두에 적용되었으며, 광범위한 실험 결과를 통해 DeepStack LMM의 효과성을 검증하였다. 동일한 컨텍스트 길이를 사용할 경우, DeepStack 7B 및 13B 모델은 각각 9개의 벤치마크에서 평균적으로 \textbf{2.7}, \textbf{2.9}만큼 기존 모델을 상회하였다. 컨텍스트 길이를 기존의 다섯 분의 일로 줄였음에도 불구하고, DeepStack은 전체 컨텍스트 길이를 사용하는 기존 모델과 거의 동등한 성능을 달성하였다. 특히 고해상도 작업에서 성능 향상이 두드러지며, TextVQA, DocVQA, InfoVQA에서 각각 LLaVA-1.5-7B 대비 \textbf{4.2}, \textbf{11.0}, \textbf{4.0}의 성능 향상을 기록하였다. 또한 DeepStack을 비전 트랜스포머 레이어에 적용한 결과, LLaVA-1.5-7B 대비 평균 \textbf{3.8}의 성능 향상이 나타났으며, 이는 언어 트랜스포머에 적용했을 때와 유사한 효과를 보였다.