토큰이 너무 많이 말할 때: 이미지, 영상 및 오디오를 통한 다중모달 장기 문맥 토큰 압축에 대한 조사

다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 고해상도 이미지, 긴 영상 시퀀스, 긴 오디오 입력과 같은 점점 더 길고 복잡한 문맥을 처리할 수 있는 능력 덕분에 놀랄 만한 진전을 이루었습니다. 이러한 능력은 MLLMs의 성능을 크게 향상시키지만, 입력 토큰 수에 따라 제곱적으로 증가하는 자기주의(attention) 메커니즘의 복잡도로 인해 계산상의 큰 도전을 동반합니다. 이러한 병목 현상을 완화하기 위해 토큰 압축(token compression)은 훈련 및 추론 단계에서 토큰 수를 효율적으로 줄이는 중요한 방법으로 등장했습니다. 본 논문에서는 다중모달 장기 문맥 토큰 압축 분야의 성장하는 연구를 체계적으로 조사하고 종합하는 최초의 연구를 제시합니다. 효과적인 압축 전략이 각 모달리티의 고유한 특성과 중복성을 밀접하게 관련하고 있다는 점을 인식하여, 기존의 접근법을 주로 다루는 데이터 유형에 따라 분류함으로써 연구자들이 자신이 관심 있는 특정 분야에 맞는 방법을 빠르게 접근하고 학습할 수 있도록 합니다. 이 분류는 다음과 같습니다: (1) 이미지 중심의 압축, 즉 시각 데이터의 공간적 중복성을 처리하는 방법; (2) 영상 중심의 압축, 즉 동적 시퀀스의 공간-시간적 중복성을 다루는 방법; 그리고 (3) 음성 중심의 압축, 즉 음향 신호의 시간적 및 주파수적 중복성을 처리하는 방법. 이 모달리티 중심의 분류 외에도, 이들의 기반이 되는 메커니즘에 따라 방법들을 분석합니다. 이 메커니즘에는 변환 기반(transform-based), 유사도 기반(similarity-based), 자기주의 기반(attention-based), 쿼리 기반(query-based) 접근법이 포함됩니다. 포괄적이고 구조적인 개요를 제공함으로써 본 조사 논문은 현재의 진행 상황을 정리하고, 핵심적인 과제를 식별하며, 이 빠르게 발전하는 분야에서의 미래 연구 방향을 제시하고자 합니다. 또한, 본 분야의 전망 있는 발전을 지속적으로 추적하고 업데이트할 수 있도록 공개 저장소를 유지하고 있습니다.