하루 전

SmallThinker: 로컬 배포를 위해 원천적으로 훈련된 효율적인 대규모 언어 모델의 가족

Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen

논문 세부 정보 보기

SmallThinker: 로컬 배포를 위해 원천적으로 훈련된 효율적인 대규모 언어 모델의 가족

초록

전면적인 대형 언어 모델(Large Language Models, LLMs)이 능력의 한계를 지속적으로 넘어서고 있는 가운데, 그 배포는 여전히 GPU 기반 클라우드 인프라에 제한되어 있다. 우리는 SmallThinker이라는 LLM 가족을 통해 이 패러다임을 도전한다. 이 모델은 클라우드 기반 기존 모델을 적응시킨 것이 아니라, 로컬 기기의 독특한 제약 조건인 약한 계산 능력, 제한된 메모리, 그리고 느린 저장 장치에 맞춰 본래부터 설계된 것이다. 기존의 방법들이 주로 클라우드용으로 설계된 기존 모델을 압축하는 데 초점을 맞추는 반면, 우리는 이 제약 조건 내에서 잘 작동할 수 있도록 전체적인 설계부터 시작하여 SmallThinker을 구축하였다. 우리의 혁신은 배포에 대한 인식을 갖춘 아키텍처로, 이 제약 조건을 설계 원칙으로 전환한다. 첫째, 세부적인 Mixture-of-Experts (MoE)와 희소 피드포워드 네트워크를 결합한 이수준 희소 구조를 도입하여, 모델의 용량을 손상시키지 않고 계산 요구량을 급격히 줄인다. 둘째, 느린 저장 장치의 I/O 병목 현상을 극복하기 위해 사전 주소 지정 라우터를 설계하여, 주의(attention) 계산 중에 저장 장치에서 전문가 파라미터를 미리 불러올 수 있도록 하여, 이전에는 기기 내 추론을 약화시킬 수 있었던 저장 지연(latency)을 효과적으로 숨길 수 있다. 셋째, 메모리 효율성을 위해 NoPE-RoPE 하이브리드 희소 주의 메커니즘을 활용하여, KV 캐시 요구량을 줄인다. 우리는 SmallThinker-4B-A0.6B와 SmallThinker-21B-A3B를 공개하였다. 이 모델들은 최신 기술 수준의 성능 점수를 기록하며, 더 큰 LLM과 비교해도 우수한 성능을 보인다. 놀랄게도, 우리와 함께 설계된 시스템은 비용이 많이 드는 GPU 하드웨어의 필요성을 대부분 제거한다. Q4_0 정밀도로 압축한 두 모델은 일반 소비자용 CPU에서 각각 20토큰/초 이상의 속도를 달성하며, 메모리 사용량은 각각 1GB와 8GB에 불과하다. SmallThinker은 hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct 및 hf.co/PowerInfer/SmallThinker-21BA3B-Instruct에서 공개되어 있다.