네이티브 스파스 어텐션

네이티브 희소 어텐션(NSA)은 DeepSeek, 베이징 대학교, 그리고 워싱턴 대학교가 2025년 2월 27일 제안한 네이티브 학습 가능한 희소 어텐션 메커니즘입니다. 이 메커니즘은 긴 시퀀스 모델링의 연산 병목 현상을 해결하는 것을 목표로 합니다. 이 방법은 알고리즘 혁신과 하드웨어 최적화를 결합하여 효율적인 긴 컨텍스트 모델링을 구현합니다.네이티브 스파스 어텐션: 하드웨어 정렬 및 네이티브 학습 가능 스파스 어텐션"로 ACL 25 최우수 논문상을 수상했습니다.

27B 매개변수의 트랜스포머 백본 모델로 사전 학습된 NSA는 일반적인 벤치마크, 긴 컨텍스트 작업 및 추론 작업에서 완전 연결 어텐션 모델과 동등하거나 더 나은 성능을 달성합니다. 64k 길이의 시퀀스를 처리할 때 NSA는 디코딩, 순방향 전파 및 역방향 전파에서 상당한 속도 향상을 달성합니다.

네이티브 스파스 어텐션 | 백과사전 | HyperAI초신경