Discord에서 논의하기

일 년 전

자연어 처리

Gao Yizhao Guo Shuming Cao Shijie Xia Yuqing Cheng Yu

초록

우리는 추론 모델의 긴 디코딩을 위해 특별히 설계된 희소 주의 메커니즘 프레임워크인 SeerAttention-R을 소개합니다. SeerAttention에서 확장된 SeerAttention-R은 자기 증류 게이팅 메커니즘을 통해 주의 희소성을 학습하는 설계를 유지하면서, 자동 회귀 디코딩을 용이하게 하기 위해 쿼리 풀링을 제거하였습니다. 경량화된 플러그인 게이팅 덕분에 SeerAttention-R은 원래 매개변수를 수정하지 않고 기존 사전 학습 모델에 쉽게 통합될 수 있습니다. 우리는 AIME 벤치마크에서 4K 토큰 예산으로 0.4B 토큰만으로 학습된 SeerAttention-R이 큰 주의 블록 크기(64/128)에서도 거의 손실 없이 추론 정확도를 유지함을 입증하였습니다. TileLang을 사용하여, 우리는 H100 GPU에서 90%의 희소성에서 FlashAttention-3보다 최대 9배 가까운 이론적인 속도 향상을 달성한 고도로 최적화된 희소 디코딩 커널을 개발하였습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/microsoft/SeerAttention.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

일 년 전

자연어 처리

Gao Yizhao Guo Shuming Cao Shijie Xia Yuqing Cheng Yu

초록

우리는 추론 모델의 긴 디코딩을 위해 특별히 설계된 희소 주의 메커니즘 프레임워크인 SeerAttention-R을 소개합니다. SeerAttention에서 확장된 SeerAttention-R은 자기 증류 게이팅 메커니즘을 통해 주의 희소성을 학습하는 설계를 유지하면서, 자동 회귀 디코딩을 용이하게 하기 위해 쿼리 풀링을 제거하였습니다. 경량화된 플러그인 게이팅 덕분에 SeerAttention-R은 원래 매개변수를 수정하지 않고 기존 사전 학습 모델에 쉽게 통합될 수 있습니다. 우리는 AIME 벤치마크에서 4K 토큰 예산으로 0.4B 토큰만으로 학습된 SeerAttention-R이 큰 주의 블록 크기(64/128)에서도 거의 손실 없이 추론 정확도를 유지함을 입증하였습니다. TileLang을 사용하여, 우리는 H100 GPU에서 90%의 희소성에서 FlashAttention-3보다 최대 9배 가까운 이론적인 속도 향상을 달성한 고도로 최적화된 희소 디코딩 커널을 개발하였습니다. 코드는 다음 링크에서 확인할 수 있습니다: https://github.com/microsoft/SeerAttention.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

SeerAttention-R: 긴 추론을 위한 희소 주의력 적응 | 문서 | HyperAI초신경