Command Palette
Search for a command to run...
SeerAttention-R: 긴 추론을 위한 희소 주의력 적응
SeerAttention-R: 긴 추론을 위한 희소 주의력 적응
초록
우리는 추론 모델의 긴 디코딩을 위해 특별히 설계된 희소 주의 메커니즘 프레임워크인 SeerAttention-R을 소개합니다. SeerAttention에서 확장된 SeerAttention-R은 자기 증류 게이팅 메커니즘을 통해 주의 희소성을 학습하는 설계를 유지하면서, 자동 회귀 디코딩을 용이하게 하기 위해 쿼리 풀링을 제거하였습니다. 경량화된 플러그인 게이팅 덕분에 SeerAttention-R은 원래 매개변수를 수정하지 않고 기존 사전 학습 모델에 쉽게 통합될 수 있습니다. 우리는 AIME 벤치마크에서 4K 토큰 예산으로 0.4B 토큰만으로 학습된 SeerAttention-R이 큰 주의 블록 크기(64/128)에서도 거의 손실 없이 추론 정확도를 유지함을 입증하였습니다. TileLang을 사용하여, 우리는 H100 GPU에서 90%의 희소성에서 FlashAttention-3보다 최대 9배 가까운 이론적인 속도 향상을 달성한 고도로 최적화된 희소 디코딩 커널을 개발하였습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/microsoft/SeerAttention.