11日前

Long Range Arena:効率的Transformersを評価するベンチマーク

Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, Donald Metzler
Long Range Arena:効率的Transformersを評価するベンチマーク
要約

Transformerモデルは、自己注意(self-attention)の計算量が二次関数的であるため、長文シーケンスへのスケーリングが非常に困難である。ここ数か月間、この課題に対処するため、効率的かつ高速なTransformerのバリエーションが多数提案されてきたが、多くの場合、従来型Transformerモデルと同等または優れたモデル性能を主張している。しかし、現時点では、こうした効率的Transformerモデルを評価するための明確な基準や合意は存在しない。さらに、さまざまなタスクやデータセットにおける一貫性の欠如したベンチマーク評価により、多数のモデル間での相対的な性能評価は極めて困難である。本論文では、長文文脈下におけるモデル品質を評価することに特化した体系的かつ統一的なベンチマーク「LRA(Long-Range Arena)」を提案する。本ベンチマークは、1K~16Kトークンにわたるシーケンスを含むタスク群から構成されており、テキスト、自然データ、合成画像、数学的式など、多様なデータタイプおよびモダリティをカバーしており、類似性、構造的、視覚的・空間的推論を必要とする問題を含んでいる。我々は、新しく提案したベンチマークセット上で、10種類の代表的な長距離Transformerモデル(Reformer、Linformer、Linear Transformer、Sinkhorn Transformer、Performer、Synthesizer、Sparse Transformer、Longformer)を体系的に評価した。LRAは、こうした効率的Transformerモデルの理解を深める道を開き、今後の研究を促進するとともに、新たな挑戦的な課題を提示する。本ベンチマークのコードは、https://github.com/google-research/long-range-arena にて公開される予定である。

Long Range Arena:効率的Transformersを評価するベンチマーク | 最新論文 | HyperAI超神経