
要約
Transformerベースのモデルは、コンテンツの意味を捉えるためのフィードフォワードブロックと、文脈の意味を捉えるための相対的に計算コストの高い自己注意(self-attention)ブロックが交互に配置された構造から構成されている。本論文では、これらのブロックの相互作用と順序の最適化を検討し、従来のTransformerアーキテクチャを改善する新たなモデルであるPAR Transformerを提案した。このモデルは、自己注意ブロックの約63%をフィードフォワードブロックに置き換えることで、Transformer-XLに比べて計算時間を35%削減しつつ、WikiText-103言語モデル化ベンチマークにおける perplexity(曖昧度)を維持した。さらに、text8およびenwiki8データセット、およびBERTモデルを用いた実験を通じて、本手法の有効性をさらに検証した。