2ヶ月前
DistilBERT、BERTの蒸留版:小さく、速く、安価で軽量
Victor Sanh; Lysandre Debut; Julien Chaumond; Thomas Wolf

要約
大規模事前学習モデルからの転移学習が自然言語処理(NLP)でますます一般的になる中、これらの大型モデルをエッジデバイス上や計算リソースに制約のある環境で運用することは依然として困難です。本研究では、小型の汎用言語表現モデルであるDistilBERTの事前学習方法を提案し、このモデルが大型モデルと同様に多様なタスクに対して良好な性能を達成できるように微調整することを目指します。これまでの多くの研究は、特定のタスク向けモデルの構築における蒸留技術の利用を探ってきましたが、我々は事前学習段階での知識蒸留を活用し、BERTモデルのサイズを40%削減しながら97%の言語理解能力を維持し、60%高速化することの可能性を示しました。大規模モデルが事前学習中に獲得した帰納的バイアスを活用するために、言語モデリング損失、蒸留損失、コサイン距離損失を組み合わせた三重損失関数を導入しました。当方の小型で高速かつ軽量なモデルは事前学習コストが低く、概念実証実験およびデバイス上の比較研究を通じてそのオンデバイス計算への適用可能性を示しています。