HyperAIHyperAI

Command Palette

Search for a command to run...

게이트된 주의

날짜

6달 전

조직

알리바바 그룹
MIT
스탠포드 대학
에든버러 대학교

Paper URL

1b7whO4SfY

게이티드 어텐션(Gated Attention)은 2025년 5월 알리바바 통이 첸웬(Alibaba Tongyi Qianwen) 팀이 에든버러 대학교, 스탠퍼드 대학교 및 기타 대학의 연구팀과 협력하여 제안했습니다. 관련 연구 결과는 논문 "대규모 언어 모델을 위한 게이트된 주의: 비선형성, 희소성 및 주의 싱크 없음", NeurIPS 2025에서 최우수 논문상을 수상했습니다.

연구팀은 대규모 실험(150억 개의 MoE와 17억 개의 밀집 모델, 3.5T 토큰으로 학습된 30개의 변형 모델 포함)을 통해 일련의 게이트 강화 소프트맥스 어텐션 변형 모델을 체계적으로 조사했습니다. 이 연구는 스케일링된 내적 어텐션(SDPA) 후 특정 헤드 시그모이드 게이팅을 적용하면 모델 성능을 지속적으로 향상시킬 수 있음을 발견했습니다. 이 성과는 게이팅 메커니즘이 표준 어텐션 계층에서 모델 성능과 동작에 미치는 영향을 강조하며, 게이팅 변형 평가를 통해 비선형성, 희소성을 도입하고 어텐션 트랩을 제거하는 능력을 보여줍니다. 이러한 결과는 업계의 게이트 어텐션 메커니즘에 대한 이해를 심화시킵니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp