HyperAIHyperAI

Command Palette

Search for a command to run...

DistilBERT、BERTの蒸留版:小さく、速く、安価で軽量

Victor SANH Lysandre DEBUT Julien CHAUMOND Thomas WOLF

概要

大規模事前学習モデルからの転移学習が自然言語処理(NLP)でますます一般的になる中、これらの大型モデルをエッジデバイス上や計算リソースに制約のある環境で運用することは依然として困難です。本研究では、小型の汎用言語表現モデルであるDistilBERTの事前学習方法を提案し、このモデルが大型モデルと同様に多様なタスクに対して良好な性能を達成できるように微調整することを目指します。これまでの多くの研究は、特定のタスク向けモデルの構築における蒸留技術の利用を探ってきましたが、我々は事前学習段階での知識蒸留を活用し、BERTモデルのサイズを40%削減しながら97%の言語理解能力を維持し、60%高速化することの可能性を示しました。大規模モデルが事前学習中に獲得した帰納的バイアスを活用するために、言語モデリング損失、蒸留損失、コサイン距離損失を組み合わせた三重損失関数を導入しました。当方の小型で高速かつ軽量なモデルは事前学習コストが低く、概念実証実験およびデバイス上の比較研究を通じてそのオンデバイス計算への適用可能性を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています