HyperAIHyperAI

Command Palette

Search for a command to run...

必要に応じて注意を向ける

Swetha Mandava Szymon Migacz Alex Fit Florea

概要

Transformerベースのモデルは、コンテンツの意味を捉えるためのフィードフォワードブロックと、文脈の意味を捉えるための相対的に計算コストの高い自己注意(self-attention)ブロックが交互に配置された構造から構成されている。本論文では、これらのブロックの相互作用と順序の最適化を検討し、従来のTransformerアーキテクチャを改善する新たなモデルであるPAR Transformerを提案した。このモデルは、自己注意ブロックの約63%をフィードフォワードブロックに置き換えることで、Transformer-XLに比べて計算時間を35%削減しつつ、WikiText-103言語モデル化ベンチマークにおける perplexity(曖昧度)を維持した。さらに、text8およびenwiki8データセット、およびBERTモデルを用いた実験を通じて、本手法の有効性をさらに検証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています