Command Palette

Search for a command to run...

21일 전

모든 활성화를 강화하다: 일반 추론기를 1조 개의 개방형 언어 기반으로 확장하기

모든 활성화를 강화하다: 일반 추론기를 1조 개의 개방형 언어 기반으로 확장하기

초록

우리는 모든 활성화가 추론 능력을 향상시킨다는 원칙에 기반한, 추론 중심의 언어 기반 모델인 Ling 2.0을 소개한다. 이 모델은 통합된 Mixture-of-Experts(MoE) 패러다임 하에서 수십십억에서 1조 파라미터까지 확장 가능한 아키텍처로 설계되었으며, 경험적 확장 법칙을 기반으로 높은 희소성, 다중 규모 일관성, 그리고 효율성을 중시한다. 이 시리즈는 총 파라미터 수가 160억에서 1조에 이르는 세 가지 추론 지향형(지시 기반) 모델 — Ling-mini-2.0, Ling-flash-2.0, Ling-1T — 으로 구성되며, 밀집형 모델 대비 최대 7배 높은 활성 계산 효율을 달성한다. Ling 2.0은 모델 아키텍처, 사전 훈련, 사후 훈련, 인프라에 걸쳐 조화로운 혁신을 통합한다. 구체적으로는 효율적인 추론을 위한 고희소성 MoE와 MTP(Multi-Task Pruning), 추론 중심의 데이터 및 중간 훈련 시 CoT(Chain-of-Thought) 활성화, 강화 기반의 미세 조정(DFT, Evo-CoT), 그리고 세밀한 이질적 파이프라인을 적용한 전면적 FP8 훈련이 포함된다. 1조 규모에서 Ling-1T는 추론 정확성과 계산 효율성 사이의 새로운 파레토 경계를 수립하며, 추론 목표와 적절히 정렬된 희소 활성화가 확장 가능하고 효율적인 지능을 가능하게 함을 입증한다. 종합적으로 Ling 2.0은 미래의 추론 및 사고 모델 발전을 위한 통합적이고 개방적이며 효율적인 기반을 제공하며, 동일한 기반 위에 구축된 Ring 시리즈 모델의 발전에도 기여한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
모든 활성화를 강화하다: 일반 추론기를 1조 개의 개방형 언어 기반으로 확장하기 | 연구 논문 | HyperAI초신경