17日前

Prune Once for All: スパースな事前学習済み言語モデル

Ofir Zafrir, Ariel Larey, Guy Boudoukh, Haihao Shen, Moshe Wasserblat
Prune Once for All: スパースな事前学習済み言語モデル
要約

Transformerベースの言語モデルは、自然言語処理分野における多様な応用に活用されている。しかし、これらのモデルは効率が低く、実装・デプロイが困難であるという課題を抱えている。近年、大規模なTransformerベースのモデルをターゲットハードウェア上でより効率的に実装するため、多数の圧縮アルゴリズムが提案されてきた。本研究では、重みの削減(weight pruning)とモデル蒸留(model distillation)を統合することで、スパースな事前学習済みTransformer言語モデルを訓練する新しい手法を提示する。本手法により得られたスパースな事前学習モデルは、さまざまなタスクにおける転移学習に活用可能でありながら、スパース構造を維持することができる。我々は、3つの既存アーキテクチャを用いて、スパースな事前学習済みBERT-Base、BERT-Large、およびDistilBERTの構築を実証した。また、訓練した圧縮済みスパース事前学習モデルが、5つの異なる下流タスクに知識を転移する際の性能を評価し、精度の低下を最小限に抑えながら高い効率性を達成することを示した。さらに、量子化に配慮した訓練(quantization-aware training)を用いて、スパースモデルの重みを8ビット精度までさらに圧縮する手法も提示した。例えば、SQuADv1.1上で微調整されたスパースな事前学習済みBERT-Largeモデルを8ビットに量子化した場合、エンコーダー部分において40倍の圧縮比を達成しつつ、精度の低下は1%未満に抑えることができた。本研究の成果は、BERT-Base、BERT-Large、DistilBERTのいずれについても、圧縮率と精度のバランスにおいて、これまでに報告された中で最も優れた結果であると確信している。