10日前

必要に応じて注意を向ける

Swetha Mandava, Szymon Migacz, Alex Fit Florea
必要に応じて注意を向ける
要約

Transformerベースのモデルは、コンテンツの意味を捉えるためのフィードフォワードブロックと、文脈の意味を捉えるための相対的に計算コストの高い自己注意(self-attention)ブロックが交互に配置された構造から構成されている。本論文では、これらのブロックの相互作用と順序の最適化を検討し、従来のTransformerアーキテクチャを改善する新たなモデルであるPAR Transformerを提案した。このモデルは、自己注意ブロックの約63%をフィードフォワードブロックに置き換えることで、Transformer-XLに比べて計算時間を35%削減しつつ、WikiText-103言語モデル化ベンチマークにおける perplexity(曖昧度)を維持した。さらに、text8およびenwiki8データセット、およびBERTモデルを用いた実験を通じて、本手法の有効性をさらに検証した。

必要に応じて注意を向ける | 最新論文 | HyperAI超神経