HyperAI

Star Attention은 NVIDIA가 2024년에 제안한 블록 희소 어텐션 메커니즘으로, 긴 시퀀스에서 Transformer 기반 대규모 언어 모델(LLM)의 추론 효율성을 개선하도록 설계되었습니다. 이 메커니즘은 2단계 처리 흐름을 통해 추론 속도를 크게 향상시키고 높은 정확도를 유지하면서 컴퓨팅 리소스 사용을 최적화합니다.

관련 논문 결과는 다음과 같습니다.Star Attention: 긴 시퀀스에 대한 효율적인 LLM 추론", 이 논문은 Star Attention의 작동 원리와 장점, 그리고 두 단계로 구성된 작동 방식을 자세히 설명합니다. 첫 번째 단계는 컨텍스트 인코딩이고, 두 번째 단계는 쿼리 처리 및 토큰 생성입니다. Star Attention은 추론 시간을 크게 단축하여 메모리 요구량과 추론 시간을 최대 11배까지 줄이는 동시에 95-100% 정확도를 유지합니다.

스타 어텐션 블록 스파스 어텐션 메커니즘