초록

대규모 언어 모델(LLM)의 효율성은 본질적으로 순차적이고 토큰 단위로 생성되는 과정에 의해 제한된다. 우리는 이 한계를 극복하기 위해서는 언어 모델 확장에 대한 새로운 설계 축이 필요하다고 주장한다. 즉, 각 생성 단계의 의미적 대역폭을 증가시켜야 한다는 것이다. 이를 위해 우리는 이산적 다음 토큰 예측에서 연속적 다음 벡터 예측으로의 패러다임 전환을 제안한다. 이를 실현하기 위해 우리는 연속적 자기부호화기(Continuous Autoencoder)를 활용하여 K개의 토큰을 하나의 연속 벡터로 압축하며, 이 벡터로부터 원래의 토큰을 99.9% 이상의 정확도로 재구성할 수 있다. 이로 인해 언어를 이산적 토큰이 아닌 연속 벡터의 시퀀스로 모델링할 수 있게 되었으며, 이는 생성 단계 수를 K배 감소시킨다. 이러한 패러다임 전환은 새로운 모델링 도구를 필요로 하므로, 우리는 연속 영역에서 안정적인 학습, 평가 및 제어 가능한 샘플링을 가능하게 하는 종합적인 확률 무관(likelihood-free) 프레임워크를 개발하였다. 실험 결과, CALM은 성능-계산 비용 간의 트레이드오프를 크게 개선하여, 강력한 이산 기준 모델과 유사한 성능을 훨씬 낮은 계산 비용으로 달성함을 보였다. 더욱 중요한 점은, 이러한 결과가 다음 벡터 예측이 초효율적 언어 모델을 향한 강력하고 확장 가능한 길임을 입증했다는 것이다. 코드: https://github.com/shaochenze/calm. 프로젝트 페이지: https://shaochenze.github.io/blog/2025/CALM.

소스 PDF 코드 보기