17日前

リトル・トランスフォーマー:ロングショートレンジアテンション

Zhanghao Wu, Zhijian Liu, Ji Lin, Yujun Lin, Song Han
リトル・トランスフォーマー:ロングショートレンジアテンション
要約

Transformerは自然言語処理(例:機械翻訳、質問応答)において広く採用されているが、高い性能を達成するためには膨大な計算量を要するため、ハードウェアリソースとバッテリーに厳しい制約があるモバイルアプリケーションには不適切である。本論文では、エッジデバイス上でのモバイル自然言語処理(NLP)アプリケーションの導入を促進するため、効率的なモバイルNLPアーキテクチャ「Lite Transformer」を提案する。本アーキテクチャの核となる構成要素は、長距離・短距離両方の関係を効率的に捉える「Long-Short Range Attention(LSRA)」である。LSRAでは、一グループのアテンションヘッドが局所的なコンテキストモデリング(畳み込みにより)に特化し、もう一方のグループが長距離依存関係のモデリング(アテンションにより)に特化している。この特化構造により、機械翻訳、要約(抽象的要約)、言語モデリングの3つの標準的な言語タスクにおいて、従来のTransformerに対して一貫した性能向上が達成された。制約されたリソース環境(500M/100M MACs)下でも、Lite TransformerはWMT'14英仏翻訳タスクにおいて、それぞれ1.2/1.7のBLEUスコアでTransformerを上回った。また、Transformerベースモデルの計算量を2.5倍削減しつつ、BLEUスコアの低下は0.3にとどめた。さらに、プルーニングと量子化を組み合わせることで、Lite Transformerのモデルサイズを18.2倍まで圧縮した。言語モデリングタスクにおいては、約500M MACsの計算量で、Transformerに比べて1.8の低い perplexity を達成した。特に注目すべきは、250GPU年以上を要する高コストなアーキテクチャ探索を必要としないにもかかわらず、AutoMLに基づく「Evolved Transformer」よりもモバイルNLP設定において0.5の高いBLEUスコアを達成した点である。コードはGitHubにて公開されており、https://github.com/mit-han-lab/lite-transformer から入手可能である。

リトル・トランスフォーマー:ロングショートレンジアテンション | 最新論文 | HyperAI超神経