HyperAIHyperAI

Command Palette

Search for a command to run...

多タスク深層ニューラルネットワークの自然言語理解における知識蒸留を用いた改善

Xiaodong Liu Pengcheng He Weizhu Chen Jianfeng Gao

概要

本論文では、複数の自然言語理解タスク間でのテキスト表現学習を改善するために、知識蒸留法をマルチタスク深層ニューラルネットワーク(MT-DNN)(Liu et al., 2019)に適用する方法について検討します。アンサンブル学習はモデルの性能向上に寄与しますが、大規模なDNN(例えばMT-DNN)のアンサンブルを運用することは非常に高コストとなる可能性があります。そこで、本研究では多タスク学習環境下で知識蒸留法(Hinton et al., 2015)を用います。各タスクに対して、単一のモデルよりも優れた性能を発揮する異なるMT-DNNのアンサンブル(教師モデル)を訓練し、その後、多タスク学習を通じてこれらのアンサンブル教師モデルから知識を抽出する単一のMT-DNN(学生モデル)を訓練します。実験結果から、抽出されたMT-DNNは9つのGLUEタスク中の7つにおいて元のMT-DNNを大幅に上回ることが示されました。これによりGLUEベンチマーク(単一モデル)が83.7%に達し、絶対値で1.5%の性能向上が確認されました\footnote{2019年4月1日時点でのGLUEリーダーボード (https://gluebenchmark.com/leaderboard) を基にしています。}。本研究で使用したコードと事前学習済みモデルは、https://github.com/namisan/mt-dnn にて公開予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています