HyperAIHyperAI

Command Palette

Search for a command to run...

ランダム特徴量アテンション

Hao Peng Nikolaos Pappas Dani Yogatama Roy Schwartz Noah A. Smith Lingpeng Kong

概要

Transformerは、さまざまなシーケンスモデリングタスクにおいて最先端のモデルである。その核となるのは、各時刻における入力同士の対間相互作用をモデル化するアテンション関数である。アテンションは強力な機能を持つが、シーケンス長に対して時間的・空間的計算量が二次関数的に増加するため、長文シーケンスへのスケーラビリティに課題がある。本研究では、ランダム特徴量法を用いてソフトマックス関数を近似する線形時間・空間複雑度のアテンション「RFA(Random Feature Attention)」を提案し、Transformerへの応用を検討する。RFAは従来のソフトマックスアテンションの即時置換として利用可能であり、オプションのゲーティング機構により「最近性バイアス(recency bias)」を簡単に学習する手法を提供する。言語モデリングおよび機械翻訳に関する実験では、RFAは強力なTransformerベースラインと同等またはより優れた性能を達成した。機械翻訳の実験では、RFAは従来のTransformerに比べてデコード速度が2倍に向上した。既存の効率化されたTransformerの変種と比較しても、RFAは3つの長文分類データセットにおいて、精度と効率の両面で競争力を持つ。分析の結果、RFAの効率性の向上は特に長文シーケンスにおいて顕著であることが示された。これにより、大規模な入力処理、高速なデコード速度、または低メモリ消費が求められるタスクにおいて、RFAが特に有効であることが示唆される。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています