HyperAI초신경
하루 전

토큰이 너무 많이 말할 때: 이미지, 영상 및 오디오를 통한 다중모달 장기 문맥 토큰 압축에 대한 조사

Kele Shao, Keda Tao, Kejia Zhang, Sicheng Feng, Mu Cai, Yuzhang Shang, Haoxuan You, Can Qin, Yang Sui, Huan Wang
토큰이 너무 많이 말할 때: 이미지, 영상 및 오디오를 통한 다중모달 장기 문맥 토큰 압축에 대한 조사
초록

다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 고해상도 이미지, 긴 영상 시퀀스, 긴 오디오 입력과 같은 점점 더 길고 복잡한 문맥을 처리할 수 있는 능력 덕분에 놀랄 만한 진전을 이루었습니다. 이러한 능력은 MLLMs의 성능을 크게 향상시키지만, 입력 토큰 수에 따라 제곱적으로 증가하는 자기주의(attention) 메커니즘의 복잡도로 인해 계산상의 큰 도전을 동반합니다. 이러한 병목 현상을 완화하기 위해 토큰 압축(token compression)은 훈련 및 추론 단계에서 토큰 수를 효율적으로 줄이는 중요한 방법으로 등장했습니다. 본 논문에서는 다중모달 장기 문맥 토큰 압축 분야의 성장하는 연구를 체계적으로 조사하고 종합하는 최초의 연구를 제시합니다. 효과적인 압축 전략이 각 모달리티의 고유한 특성과 중복성을 밀접하게 관련하고 있다는 점을 인식하여, 기존의 접근법을 주로 다루는 데이터 유형에 따라 분류함으로써 연구자들이 자신이 관심 있는 특정 분야에 맞는 방법을 빠르게 접근하고 학습할 수 있도록 합니다. 이 분류는 다음과 같습니다: (1) 이미지 중심의 압축, 즉 시각 데이터의 공간적 중복성을 처리하는 방법; (2) 영상 중심의 압축, 즉 동적 시퀀스의 공간-시간적 중복성을 다루는 방법; 그리고 (3) 음성 중심의 압축, 즉 음향 신호의 시간적 및 주파수적 중복성을 처리하는 방법. 이 모달리티 중심의 분류 외에도, 이들의 기반이 되는 메커니즘에 따라 방법들을 분석합니다. 이 메커니즘에는 변환 기반(transform-based), 유사도 기반(similarity-based), 자기주의 기반(attention-based), 쿼리 기반(query-based) 접근법이 포함됩니다. 포괄적이고 구조적인 개요를 제공함으로써 본 조사 논문은 현재의 진행 상황을 정리하고, 핵심적인 과제를 식별하며, 이 빠르게 발전하는 분야에서의 미래 연구 방향을 제시하고자 합니다. 또한, 본 분야의 전망 있는 발전을 지속적으로 추적하고 업데이트할 수 있도록 공개 저장소를 유지하고 있습니다.