2ヶ月前

学習可能な表現プーリングを用いたスパーシファイア・トランスフォーマー・モデル

Michał Pietruszka; Łukasz Borchmann; Łukasz Garncarek

要約

私たちは、Transformerモデルにおける注意の疎化を実現する新しい手法を提案します。この手法は、学習過程において最も情報量の多いトークン表現を選択することにより、入力のタスク固有部分に焦点を当てるものです。堅牢な学習可能なトップ-$k$演算子（trainable top-$k$ operator）のおかげで、二次時間とメモリの複雑さを準線形に削減することが可能となりました。長文要約という難易度の高いタスクに対する実験結果では、私たちの単純なベースラインが現在の最先端技術（SOTA）と同等の性能を示し、さらに学習可能なプーリングを使用することで、その最上位の品質を維持しつつ、学習時には1.8倍速く、推論時には4.5倍速く、デコーダーでの計算効率も最大13倍向上しました。