16日前
SMART:原理的な正則化最適化による事前学習済み自然言語モデルの堅牢で効率的なファインチューニング
Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Tuo Zhao

要約
転移学習は、自然言語処理(NLP)研究のあり方を根本的に変革した。現在の最先端モデルの多くは、まず大規模なテキストコーパス上で事前学習を行い、その後、下流タスクに対して微調整(fine-tuning)を行う。しかし、下流タスクのデータリソースが限られている一方で、事前学習モデルの容量は極めて大きいため、過度な微調整はモデルが下流タスクのデータに過剰適合(オーバーフィッティング)し、事前学習段階で習得した知識を忘れてしまう問題が生じる。この問題をより原理的なアプローチで解決するため、本研究では、事前学習言語モデルに対する堅牢かつ効率的な微調整を実現する新しい計算フレームワークを提案する。具体的には、本フレームワークは以下の2つの重要な要素を含む:1)滑らかさを促進する正則化(smoothness-inducing regularization)——モデルの表現能力を効果的に制御する;2)ブレグマン近接点最適化(Bregman proximal point optimization)——信頼領域法の一種であり、知識の忘却を防止する。実験の結果、提案手法は複数のNLPベンチマークにおいて最先端の性能を達成した。