HyperAIHyperAI

Command Palette

Search for a command to run...

Long Range Arena:効率的Transformersを評価するベンチマーク

Yi Tay Mostafa Dehghani Samira Abnar Yikang Shen Dara Bahri Philip Pham Jinfeng Rao Liu Yang Sebastian Ruder Donald Metzler

概要

Transformerモデルは、自己注意(self-attention)の計算量が二次関数的であるため、長文シーケンスへのスケーリングが非常に困難である。ここ数か月間、この課題に対処するため、効率的かつ高速なTransformerのバリエーションが多数提案されてきたが、多くの場合、従来型Transformerモデルと同等または優れたモデル性能を主張している。しかし、現時点では、こうした効率的Transformerモデルを評価するための明確な基準や合意は存在しない。さらに、さまざまなタスクやデータセットにおける一貫性の欠如したベンチマーク評価により、多数のモデル間での相対的な性能評価は極めて困難である。本論文では、長文文脈下におけるモデル品質を評価することに特化した体系的かつ統一的なベンチマーク「LRA(Long-Range Arena)」を提案する。本ベンチマークは、1K~16Kトークンにわたるシーケンスを含むタスク群から構成されており、テキスト、自然データ、合成画像、数学的式など、多様なデータタイプおよびモダリティをカバーしており、類似性、構造的、視覚的・空間的推論を必要とする問題を含んでいる。我々は、新しく提案したベンチマークセット上で、10種類の代表的な長距離Transformerモデル(Reformer、Linformer、Linear Transformer、Sinkhorn Transformer、Performer、Synthesizer、Sparse Transformer、Longformer)を体系的に評価した。LRAは、こうした効率的Transformerモデルの理解を深める道を開き、今後の研究を促進するとともに、新たな挑戦的な課題を提示する。本ベンチマークのコードは、https://github.com/google-research/long-range-arena にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています