ロングショートトランスフォーマー:言語およびビジョンにおける効率的なトランスフォーマー

Transformerは、言語および視覚の両分野において成功を収めてきた。しかし、長文や高解像度画像など長序列データにスケーリングする際には、自己注意(self-attention)機構が入力シーケンス長に対して二次的な時間およびメモリ計算量を要するため、実用的にコストが高くなる。本論文では、長序列のモデリングに向けた線形計算量を実現する効率的な自己注意機構として、Long-Short Transformer(Transformer-LS)を提案する。この手法は、遠方の相関を動的投影を用いた新たな長距離注意機構で捉え、同時に細粒度な局所相関を短距離注意機構で表現する。また、両注意機構間のスケールの不一致に対処するため、二重正規化戦略を導入している。Transformer-LSは、追加の計算コストを伴わず、自己回帰モデルおよび双方向モデルの両方に適用可能である。実験では、言語および視覚タスクの複数のベンチマークにおいて、既存の最先端モデルを上回る性能を示した。特に、Long Range Arenaベンチマーク、自己回帰的言語モデリング、ImageNet分類において優れた結果を達成した。例えば、enwik8データセットにおいて、従来手法の半分のパラメータ数で0.97のテストBPC(ビット毎文字数)を達成し、処理速度も向上し、同じハードウェア上でフル自己注意バージョンと比較して3倍の長さのシーケンスを扱える。ImageNetでは、224×224のImageNet-1Kデータセットのみで学習した中規模モデル(5580万パラメータ)でTop-1精度84.1%という最先端の性能を達成しつつ、高解像度画像へのスケーラビリティも優れている。本研究のソースコードおよびモデルは、https://github.com/NVIDIA/transformer-ls にて公開されている。