10日前

必要に応じて注意を向ける

Swetha Mandava, Szymon Migacz, Alex Fit Florea

要約

Transformerベースのモデルは、コンテンツの意味を捉えるためのフィードフォワードブロックと、文脈の意味を捉えるための相対的に計算コストの高い自己注意（self-attention）ブロックが交互に配置された構造から構成されている。本論文では、これらのブロックの相互作用と順序の最適化を検討し、従来のTransformerアーキテクチャを改善する新たなモデルであるPAR Transformerを提案した。このモデルは、自己注意ブロックの約63％をフィードフォワードブロックに置き換えることで、Transformer-XLに比べて計算時間を35％削減しつつ、WikiText-103言語モデル化ベンチマークにおける perplexity（曖昧度）を維持した。さらに、text8およびenwiki8データセット、およびBERTモデルを用いた実験を通じて、本手法の有効性をさらに検証した。