17日前

PartialFormer：機械翻訳における全体の代わりに部分をモデル化する

Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu

要約

Transformerの前向きフィードフォワードニューラルネットワークにおける設計選択は、顕著な計算コストおよびパラメータの過剰を引き起こしている。本研究では、軽量なFFN（前向きフィードフォワードネットワーク）を設計する際に、隠れ次元の重要性に注目し、これまでのアーキテクチャではしばしば無視されてきたこの要因の意義を強調する。この原則に基づき、複数の小さなFFNを用いることでパラメータと計算量を削減しつつ、必要な隠れ次元を維持する、パラメータ効率の高いTransformerアーキテクチャ「PartialFormer」を提案する。これらの小さなFFNは、複数のヘッドAttention機構に統合され、効果的な協調動作を実現する。さらに、PartialFormerの性能を向上させるために、独自のヘッドスケーリング戦略を提案する。また、PartialFormer内の深さスケーリングを改善するため、リジッドなアテンション計算を採用した残差型のアテンション機構を導入する。9つの翻訳タスクおよび1つの要約生成タスクにおける広範な実験により、PartialFormerが機械翻訳および要約タスクにおいて有効であることが実証された。本研究のコードは、以下のURLで公開される予定である：https://github.com/zhengkid/PartialFormer。