AI 효율성의 변화: 모델 중심에서 데이터 중심 압축으로

대형 언어 모델(LLM)과 다중 모드 LLM(MLLM)의 급속한 발전은 역사적으로 모델 중심 확장을 통해 수백억 개의 매개변수로 성능 향상을 이끌어내는 데 의존해 왔습니다. 그러나 하드웨어 한계에 가까워짐에 따라, 주요 계산 병목 현상이 근본적으로 긴 토큰 시퀀스에 대한 자기 주의(self-attention)의 이차 비용으로 변화하였습니다. 이는 초장 문맥, 고해상도 이미지, 그리고 연장된 비디오 등으로 인해 더욱 강화되고 있습니다. 본 입장 논문에서 \textbf{우리는 효율적인 AI 연구의 초점이 모델 중심 압축에서 데이터 중심 압축으로 이동하고 있음을 주장합니다}. 우리는 토큰 압축을 새로운 전선으로 제시하며, 이를 통해 모델 학습 또는 추론 과정에서 토큰 수를 줄여 AI 효율성을 개선할 수 있습니다. 포괄적인 분석을 통해 먼저 다양한 영역에서의 장문맥 AI의 최근 발전을 살펴보고, 기존 모델 효율성 전략에 대한 통합된 수학적 프레임워크를 구축하여, 왜 토큰 압축이 장문맥 오버헤드를 해결하기 위한 중요한 패러다임 변화를 대표하는지를 설명합니다. 그 다음으로, 토큰 압축 연구의 전반적인 경향을 체계적으로 검토하며, 그 기본적인 이점을 분석하고 다양한 시나리오에서의 강력한 장점을 식별합니다. 또한, 현재 토큰 압축 연구가 직면한 도전 과제들을 깊이 있게 분석하고 유망한 미래 방향을 제시합니다. 궁극적으로 우리의 작업은 AI 효율성에 대한 새로운 관점을 제공하고, 기존 연구를 종합하며, 증가하는 문맥 길이가 AI 커뮤니티의 발전에 미치는 도전 과제들을 해결하기 위한 혁신적인 개발을 촉진하는 것을 목표로 합니다.