15日前

フーリエ変換器:FFT演算子によるシーケンスの冗長性除去を用いた高速な長距離モデリング

He, Ziwei, Yang, Meng, Feng, Minwei, Yin, Jingcheng, Wang, Xinbing, Leng, Jingwen, Lin, Zhouhan
フーリエ変換器:FFT演算子によるシーケンスの冗長性除去を用いた高速な長距離モデリング
要約

変換器(Transformer)モデルは、自己注意(self-attention)モジュールが系列長に対して二次時間・空間計算量を要するため、計算コストが高く、特に長系列に対する処理では実用上困難であることが知られている。多くの研究者たちが、新たな自己注意の形式の設計や新たなパラメータの導入によりこの制約を克服しようとしているが、その多くは大規模な事前学習済みモデルからの重みの継承を制限してしまうという課題を抱えている。本研究では、この問題に対して異なるアプローチを採用した。我々は、既存の高速フーリエ変換(FFT)演算子を用いて離散コサイン変換(DCT)を実行することで、隠れ系列内の冗長性を段階的に除去する「Fourier Transformer」を提案する。この手法はシンプルでありながら効果的であり、大規模な事前学習モデルからの重み継承を維持しつつ、計算コストを顕著に削減することが可能である。実験の結果、長距離モデリングベンチマークLRAにおいて、すべてのTransformerベースのモデルの中で最先端の性能を達成し、処理速度およびメモリ使用量の両面で顕著な向上が確認された。また、CNN/DailyMailやELI5といった生成型seq-to-seqタスクにおいても、BARTの重みを継承することで、標準のBARTや他の効率的なモデルを上回る性能を示した。本研究のコードは、GitHubにて公開されている:https://github.com/LUMIA-Group/FourierTransformer

フーリエ変換器:FFT演算子によるシーケンスの冗長性除去を用いた高速な長距離モデリング | 最新論文 | HyperAI超神経