HyperAIHyperAI

Command Palette

Search for a command to run...

SeerAttention-R: 긴 추론을 위한 희소 주의력 적응

초록

우리는 추론 모델의 긴 디코딩을 위해 특별히 설계된 희소 주의 메커니즘 프레임워크인 SeerAttention-R을 소개합니다. SeerAttention에서 확장된 SeerAttention-R은 자기 증류 게이팅 메커니즘을 통해 주의 희소성을 학습하는 설계를 유지하면서, 자동 회귀 디코딩을 용이하게 하기 위해 쿼리 풀링을 제거하였습니다. 경량화된 플러그인 게이팅 덕분에 SeerAttention-R은 원래 매개변수를 수정하지 않고 기존 사전 학습 모델에 쉽게 통합될 수 있습니다. 우리는 AIME 벤치마크에서 4K 토큰 예산으로 0.4B 토큰만으로 학습된 SeerAttention-R이 큰 주의 블록 크기(64/128)에서도 거의 손실 없이 추론 정확도를 유지함을 입증하였습니다. TileLang을 사용하여, 우리는 H100 GPU에서 90%의 희소성에서 FlashAttention-3보다 최대 9배 가까운 이론적인 속도 향상을 달성한 고도로 최적화된 희소 디코딩 커널을 개발하였습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/microsoft/SeerAttention.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SeerAttention-R: 긴 추론을 위한 희소 주의력 적응 | 문서 | HyperAI초신경