12일 전

모든 주의는 중요하다: 긴 문맥 추론을 위한 효율적인 하이브리드 아키텍처

Ling Team Bin Han Caizhi Tang Chen Liang Donghao Zhang Fan Yuan Feng Zhu Jie Gao Jingyu Hu Longfei Li

초록

이 기술 보고서에서는 Ring-linear 모델 시리즈를 제시한다. 구체적으로 Ring-mini-linear-2.0과 Ring-flash-linear-2.0이 포함된다. Ring-mini-linear-2.0은 160억 파라미터와 9.57억 활성화 값을 가지며, Ring-flash-linear-2.0은 1,040억 파라미터와 61억 활성화 값을 갖는다. 두 모델 모두 선형 어텐션과 소프트맥스 어텐션을 효과적으로 통합한 하이브리드 아키텍처를 채택하여, 긴 컨텍스트 추론 환경에서 I/O 및 계산 오버헤드를 크게 감소시킨다. 320억 파라미터를 가진 밀도 높은 모델과 비교했을 때, 이 시리즈는 추론 비용을 1/10로 줄였으며, 기존 Ring 시리즈와 비교해도 비용이 50% 이상 감소했다. 더불어, 하이브리드 아키텍처 내에서 다양한 어텐션 메커니즘 간 비율을 체계적으로 탐색함으로써 현재 최적의 모델 구조를 도출하였다. 또한 자체 개발한 고성능 FP8 연산자 라이브러리 'linghe'를 활용함으로써, 전반적인 학습 효율이 50% 향상되었다. 훈련과 추론 엔진 연산자 간 높은 일치성 덕분에, 강화 학습 단계에서 모델은 장기간에 걸쳐 안정적이고 고도로 효율적인 최적화를 수행할 수 있으며, 여러 도전적인 복잡한 추론 벤치마크에서 지속적으로 최고 수준(SOTA)의 성능을 유지할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

모든 주의는 중요하다: 긴 문맥 추론을 위한 효율적인 하이브리드 아키텍처

Ling Team Bin Han Caizhi Tang Chen Liang Donghao Zhang Fan Yuan Feng Zhu Jie Gao Jingyu Hu Longfei Li18 more

초록

AI로 AI 구축

Hyper Newsletters

Ling Team Bin Han Caizhi Tang Chen Liang Donghao Zhang Fan Yuan Feng Zhu Jie Gao Jingyu Hu Longfei Li