Command Palette

Search for a command to run...

2일 전

Kimi Linear: 표현력 있고 효율적인 어텐션 아키텍처

Kimi Linear: 표현력 있고 효율적인 어텐션 아키텍처

초록

우리는 다양한 시나리오—단기 문맥, 장기 문맥, 강화 학습(RL) 스케일링 환경 등—에서 공정한 비교 조건 하에, 처음으로 전체 주의( full attention)를 초월하는 하이브리드 선형 주의 아키텍처인 Kimi Linear을 소개한다. 이 아키텍처의 핵심은 Kimi 델타 주의(Kimi Delta Attention, KDA)로, 보다 세밀한 게이팅 메커니즘을 도입한 게이트드 델타넷(Gated DeltaNet)의 확장 버전인 표현력 높은 선형 주의 모듈이다. KDA는 제한된 유한 상태 RNN 메모리의 효율적 활용을 가능하게 한다. 특별히 설계된 체unks별 알고리즘(chunkwise algorithm)은 대각선+저랭크(Diagonal-Plus-Low-Rank, DPLR) 전이 행렬의 전용 변형을 통해 높은 하드웨어 효율성을 달성하며, 일반적인 DPLR 설정에 비해 계산량을 크게 줄이면서도 전통적인 델타 규칙과 더 일관된 성능을 유지한다.우리는 KDA와 다중 헤드 잠재 주의(Multi-Head Latent Attention, MLA)의 계층적 하이브리드 구조를 기반으로, 활성화 파라미터 30억 개, 총 파라미터 480억 개를 가진 Kimi Linear 모델을 사전 훈련하였다. 실험 결과, 동일한 훈련 레시피를 사용할 경우, Kimi Linear는 모든 평가된 작업에서 전체 MLA보다 뚜렷한 성능 우위를 보였으며, KV 캐시 사용량을 최대 75%까지 감소시켰고, 100만 단어의 문맥을 처리할 때 디코딩 처리량을 최대 6배까지 향상시켰다. 이러한 결과는 Kimi Linear가 더 긴 입력 및 출력 길이를 가진 작업을 포함하여, 전반적으로 뛰어난 성능과 효율성을 제공하는 전체 주의 아키텍처의 즉시 대체 가능 대안이 될 수 있음을 입증한다.향후 연구를 지원하기 위해, 우리는 KDA 커널과 vLLM 구현체를 오픈소스로 공개하며, 사전 훈련된 모델 체크포인트와 지시어 훈련된 모델 체크포인트도 함께 공개한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp