HyperAIHyperAI

Command Palette

Search for a command to run...

ゲート付き注意

Date

2ヶ月前

Organization

アリババグループ
マサチューセッツ工科大学
スタンフォード大学
エディンバラ大学

Paper URL

1b7whO4SfY

ゲーテッド・アテンションは、2025年5月にアリババ・トンイ・チエンウェン・チームによって、エディンバラ大学、スタンフォード大学、その他の大学の研究チームと共同で提案されました。関連する研究成果は論文「大規模言語モデルのためのゲート付き注意:非線形性、スパース性、および注意シンクフリー」がNeurIPS 2025で最優秀論文賞を受賞しました。

研究チームは、大規模な実験(3.5兆トークンで学習した150億MoEモデルと17億の高密度モデル、30種類のバリエーション)を通じて、一連のゲーテッド・アテンション・バリアントを体系的に調査しました。この研究では、Scaled Dot Product Attention(SDPA)の後に特定ヘッドシグモイドゲーティングを適用することで、モデルのパフォーマンスを着実に向上できることが分かりました。この成果は、ゲーティングメカニズムが標準的なアテンション層におけるモデルのパフォーマンスと動作に与える影響を強調し、ゲーティングバリアントの評価を通じて、非線形性、スパース性、そしてアテンショントラップの排除を可能にする能力を明らかにしました。これらの知見は、ゲーテッドアテンションメカニズムに関する業界の理解を深めるものです。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています