Command Palette

Search for a command to run...

12일 전

모든 주의는 중요하다: 긴 문맥 추론을 위한 효율적인 하이브리드 아키텍처

모든 주의는 중요하다: 긴 문맥 추론을 위한 효율적인 하이브리드 아키텍처

초록

이 기술 보고서에서는 Ring-linear 모델 시리즈를 제시한다. 구체적으로 Ring-mini-linear-2.0과 Ring-flash-linear-2.0이 포함된다. Ring-mini-linear-2.0은 160억 파라미터와 9.57억 활성화 값을 가지며, Ring-flash-linear-2.0은 1,040억 파라미터와 61억 활성화 값을 갖는다. 두 모델 모두 선형 어텐션과 소프트맥스 어텐션을 효과적으로 통합한 하이브리드 아키텍처를 채택하여, 긴 컨텍스트 추론 환경에서 I/O 및 계산 오버헤드를 크게 감소시킨다. 320억 파라미터를 가진 밀도 높은 모델과 비교했을 때, 이 시리즈는 추론 비용을 1/10로 줄였으며, 기존 Ring 시리즈와 비교해도 비용이 50% 이상 감소했다. 더불어, 하이브리드 아키텍처 내에서 다양한 어텐션 메커니즘 간 비율을 체계적으로 탐색함으로써 현재 최적의 모델 구조를 도출하였다. 또한 자체 개발한 고성능 FP8 연산자 라이브러리 'linghe'를 활용함으로써, 전반적인 학습 효율이 50% 향상되었다. 훈련과 추론 엔진 연산자 간 높은 일치성 덕분에, 강화 학습 단계에서 모델은 장기간에 걸쳐 안정적이고 고도로 효율적인 최적화를 수행할 수 있으며, 여러 도전적인 복잡한 추론 벤치마크에서 지속적으로 최고 수준(SOTA)의 성능을 유지할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
모든 주의는 중요하다: 긴 문맥 추론을 위한 효율적인 하이브리드 아키텍처 | 연구 논문 | HyperAI초신경