11日前

FNet:フーリエ変換を用いたトークンの混合

James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon
FNet:フーリエ変換を用いたトークンの混合
要約

Transformerエンコーダー構造は、自己注意(self-attention)サブレイヤーを入力トークンを「混合」する単純な線形変換に置き換えることで、精度の低下を最小限に抑えつつ高速化が可能であることを示す。これらの線形ミキサーと、フィードフォワード層における標準的な非線形関数を組み合わせることで、複数のテキスト分類タスクにおいて意味的関係を適切にモデル化できることが実証された。特に驚くべきことには、Transformerエンコーダーの自己注意サブレイヤーをパラメータを持たない標準的なフーリエ変換(Fourier Transform)に置き換えても、GLUEベンチマークにおいてBERTの同等モデルの92~97%の精度を達成でき、標準的な入力長512におけるGPU上では80%、TPU上では70%高速に学習が可能である。さらに、入力長が長くなる場合、FNetモデルの高速性は顕著に増す。長距離範囲アリーナ(Long Range Arena)ベンチマークにおいて「効率的」とされるTransformerモデルと比較すると、FNetは最も正確なモデルと同等の精度を維持しつつ、GPU上ではすべてのシーケンス長で最も高速なモデルを上回り、TPU上でも比較的短い長さのシーケンスにおいて同様の優位性を示す。最後に、FNetはメモリ使用量が軽量であり、モデルサイズが小さい場合において特に効率的である。固定された速度と精度の予算下では、小規模なFNetモデルがTransformerモデルを上回る性能を発揮する。

FNet:フーリエ変換を用いたトークンの混合 | 最新論文 | HyperAI超神経