HyperAIHyperAI

Command Palette

Search for a command to run...

PartialFormer:機械翻訳における全体の代わりに部分をモデル化する

Tong Zheng Bei Li Huiwen Bao Jiale Wang Weiqiao Shan Tong Xiao Jingbo Zhu

概要

Transformerの前向きフィードフォワードニューラルネットワークにおける設計選択は、顕著な計算コストおよびパラメータの過剰を引き起こしている。本研究では、軽量なFFN(前向きフィードフォワードネットワーク)を設計する際に、隠れ次元の重要性に注目し、これまでのアーキテクチャではしばしば無視されてきたこの要因の意義を強調する。この原則に基づき、複数の小さなFFNを用いることでパラメータと計算量を削減しつつ、必要な隠れ次元を維持する、パラメータ効率の高いTransformerアーキテクチャ「PartialFormer」を提案する。これらの小さなFFNは、複数のヘッドAttention機構に統合され、効果的な協調動作を実現する。さらに、PartialFormerの性能を向上させるために、独自のヘッドスケーリング戦略を提案する。また、PartialFormer内の深さスケーリングを改善するため、リジッドなアテンション計算を採用した残差型のアテンション機構を導入する。9つの翻訳タスクおよび1つの要約生成タスクにおける広範な実験により、PartialFormerが機械翻訳および要約タスクにおいて有効であることが実証された。本研究のコードは、以下のURLで公開される予定である:https://github.com/zhengkid/PartialFormer


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
PartialFormer:機械翻訳における全体の代わりに部分をモデル化する | 記事 | HyperAI超神経