Command Palette
Search for a command to run...

초록
우리는 모든 활성화가 추론 능력을 향상시킨다는 원칙에 기반한, 추론 중심의 언어 기반 모델인 Ling 2.0을 소개한다. 이 모델은 통합된 Mixture-of-Experts(MoE) 패러다임 하에서 수십십억에서 1조 파라미터까지 확장 가능한 아키텍처로 설계되었으며, 경험적 확장 법칙을 기반으로 높은 희소성, 다중 규모 일관성, 그리고 효율성을 중시한다. 이 시리즈는 총 파라미터 수가 160억에서 1조에 이르는 세 가지 추론 지향형(지시 기반) 모델 — Ling-mini-2.0, Ling-flash-2.0, Ling-1T — 으로 구성되며, 밀집형 모델 대비 최대 7배 높은 활성 계산 효율을 달성한다. Ling 2.0은 모델 아키텍처, 사전 훈련, 사후 훈련, 인프라에 걸쳐 조화로운 혁신을 통합한다. 구체적으로는 효율적인 추론을 위한 고희소성 MoE와 MTP(Multi-Task Pruning), 추론 중심의 데이터 및 중간 훈련 시 CoT(Chain-of-Thought) 활성화, 강화 기반의 미세 조정(DFT, Evo-CoT), 그리고 세밀한 이질적 파이프라인을 적용한 전면적 FP8 훈련이 포함된다. 1조 규모에서 Ling-1T는 추론 정확성과 계산 효율성 사이의 새로운 파레토 경계를 수립하며, 추론 목표와 적절히 정렬된 희소 활성화가 확장 가능하고 효율적인 지능을 가능하게 함을 입증한다. 종합적으로 Ling 2.0은 미래의 추론 및 사고 모델 발전을 위한 통합적이고 개방적이며 효율적인 기반을 제공하며, 동일한 기반 위에 구축된 Ring 시리즈 모델의 발전에도 기여한다.