11日前

ファンネル・トランスフォーマー:効率的な言語処理のための逐次的冗長性のフィルタリング

Zihang Dai, Guokun Lai, Yiming Yang, Quoc V. Le
ファンネル・トランスフォーマー:効率的な言語処理のための逐次的冗長性のフィルタリング
要約

言語の事前学習の成功に伴い、豊富なラベルなしデータを低コストで効率的に活用できる、良好なスケーラビリティを持つより効率的なアーキテクチャの開発が強く望まれている。効率性の向上を目指して、本研究では、特にシーケンスの単一ベクトル表現を必要とするタスクにおいて、長さが完全なトークンレベルの表現を維持することに起因する著しく無視されがちな冗長性に着目する。この洞察に基づき、我々は「Funnel-Transformer」を提案する。このモデルは、隠れ状態のシーケンスを徐々に短縮することで計算コストを削減する。さらに、シーケンス長の短縮によって節約されたFLOPsを、モデルの深さや幅を増やすことに再投資することにより、モデルの表現力のさらなる向上を実現する。また、一般的な事前学習目的で要求されるトークンレベルの予測を行うために、Funnel-Transformerは、短縮された隠れ状態シーケンスからデコーダを用いて各トークンに対する深い表現を復元可能である。実証実験の結果、同等またはそれ以下のFLOPsで、テキスト分類、言語理解、読解といった幅広いシーケンスレベルの予測タスクにおいて、標準的なTransformerを上回る性能を達成した。コードおよび事前学習済みチェックポイントは、https://github.com/laiguokun/Funnel-Transformer にて公開されている。

ファンネル・トランスフォーマー:効率的な言語処理のための逐次的冗長性のフィルタリング | 最新論文 | HyperAI超神経