Command Palette
Search for a command to run...
게이트된 주의
게이티드 어텐션(Gated Attention)은 2025년 5월 알리바바 통이 첸웬(Alibaba Tongyi Qianwen) 팀이 에든버러 대학교, 스탠퍼드 대학교 및 기타 대학의 연구팀과 협력하여 제안했습니다. 관련 연구 결과는 논문 "대규모 언어 모델을 위한 게이트된 주의: 비선형성, 희소성 및 주의 싱크 없음", NeurIPS 2025에서 최우수 논문상을 수상했습니다.
연구팀은 대규모 실험(150억 개의 MoE와 17억 개의 밀집 모델, 3.5T 토큰으로 학습된 30개의 변형 모델 포함)을 통해 일련의 게이트 강화 소프트맥스 어텐션 변형 모델을 체계적으로 조사했습니다. 이 연구는 스케일링된 내적 어텐션(SDPA) 후 특정 헤드 시그모이드 게이팅을 적용하면 모델 성능을 지속적으로 향상시킬 수 있음을 발견했습니다. 이 성과는 게이팅 메커니즘이 표준 어텐션 계층에서 모델 성능과 동작에 미치는 영향을 강조하며, 게이팅 변형 평가를 통해 비선형성, 희소성을 도입하고 어텐션 트랩을 제거하는 능력을 보여줍니다. 이러한 결과는 업계의 게이트 어텐션 메커니즘에 대한 이해를 심화시킵니다.