Command Palette
Search for a command to run...
ゲート付き注意
ゲーテッド・アテンションは、2025年5月にアリババ・トンイ・チエンウェン・チームによって、エディンバラ大学、スタンフォード大学、その他の大学の研究チームと共同で提案されました。関連する研究成果は論文「大規模言語モデルのためのゲート付き注意:非線形性、スパース性、および注意シンクフリー」がNeurIPS 2025で最優秀論文賞を受賞しました。
研究チームは、大規模な実験(3.5兆トークンで学習した150億MoEモデルと17億の高密度モデル、30種類のバリエーション)を通じて、一連のゲーテッド・アテンション・バリアントを体系的に調査しました。この研究では、Scaled Dot Product Attention(SDPA)の後に特定ヘッドシグモイドゲーティングを適用することで、モデルのパフォーマンスを着実に向上できることが分かりました。この成果は、ゲーティングメカニズムが標準的なアテンション層におけるモデルのパフォーマンスと動作に与える影響を強調し、ゲーティングバリアントの評価を通じて、非線形性、スパース性、そしてアテンショントラップの排除を可能にする能力を明らかにしました。これらの知見は、ゲーテッドアテンションメカニズムに関する業界の理解を深めるものです。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.