11日前

TinyBERT：自然言語理解のためのBERTの蒸留

Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu

要約

自然言語処理（NLP）タスクにおける性能を著しく向上させた、BERTのような言語モデルの事前学習技術は、近年広く採用されている。しかし、事前学習済み言語モデルは計算コストが高いため、リソース制約のあるデバイス上で効率的に実行することは困難である。推論の高速化とモデルサイズの削減を実現しつつ、精度を維持するため、本研究ではTransformerベースのモデルに対する知識蒸留（Knowledge Distillation, KD）を特に目的とした新しいTransformer蒸留手法を提案する。この新規KD手法を活用することで、大規模な教師モデルであるBERTが学習した豊富な知識を、小型の学生モデルであるTiny-BERTに効果的に転送できる。さらに、Tiny-BERT用の新たな二段階学習フレームワークを導入し、事前学習段階およびタスク特化学習段階の両方でTransformer蒸留を実施する。このフレームワークにより、Tiny-BERTはBERTに含まれる一般ドメイン知識およびタスク特化知識を適切に捉えることが可能となる。4層構成のTiny-BERTは、実証的に高い効果を示し、GLUEベンチマークにおいて教師モデルであるBERTBASEの性能の96.8％以上を達成する一方で、モデルサイズは7.5倍小さく、推論速度は9.4倍速くなる。また、4層構成の既存最先端手法と比較して、パラメータ数は約28％、推論時間は約31％にまで削減しつつ、顕著に優れた性能を発揮する。さらに、6層構成のTiny-BERTは、教師モデルのBERTBASEと同等の性能を達成している。