4ヶ月前

スター・トランスフォーマー

Qipeng Guo; Xipeng Qiu; Pengfei Liu; Yunfan Shao; Xiangyang Xue; Zheng Zhang

要約

トランスフォーマーは多くの自然言語処理タスクで大きな成功を収めていますが、全結合の注意機構を持つ重い構造により、大量の学習データに依存しています。本論文では、慎重な疎化によって軽量な代替モデルであるスタートランスフォーマー（Star-Transformer）を提案します。モデルの複雑さを減らすために、全結合構造をスター形状のトポロジーに置き換えました。このトポロジーでは、すべての非隣接ノードが共有の中継ノードを通じて接続されています。これにより、複雑さは二次から一次に削減されつつ、局所的な合成と長距離依存関係を捕捉する能力が保たれます。4つのタスク（22のデータセット）における実験結果は、スタートランスフォーマーが標準的なトランスフォーマーよりも中規模のデータセットで有意な改善を達成したことを示しています。