2ヶ月前
パラメータ効率的な転移学習のNLPへの適用
Neil Houlsby; Andrei Giurgiu; Stanislaw Jastrzebski; Bruna Morrone; Quentin de Laroussilhe; Andrea Gesmundo; Mona Attariyan; Sylvain Gelly

要約
大規模事前学習モデルのファインチューニングは、自然言語処理(NLP)における効果的な転移メカニズムである。しかし、多くの下流タスクが存在する場合、ファインチューニングはパラメータ効率が低い:各タスクに対して全新的なモデルが必要となる。この問題を解決するために、アダプタモジュールを使用した転移を提案する。アダプタモジュールはコンパクトで拡張性のあるモデルを提供し、各タスクにわずかなトレーナブルパラメータのみを追加する。また、新しいタスクを追加する際に以前のタスクを見直す必要がない。元のネットワークのパラメータは固定されたままとなり、高い度合いでのパラメータ共有が実現される。アダプタの有効性を示すために、最近提案されたBERTトランスフォーマー・モデルを26種類の多様なテキスト分類タスクに転移させた。これらのタスクにはGLUEベンチマークも含まれている。アダプタは各タスクにわずかなパラメータを追加しながら、ほぼ最先端の性能を達成した。GLUEにおいては、フルファインチューニングの性能と0.4%以内の差異で済み、各タスクに対して3.6%のパラメータのみを追加した。対照的に、ファインチューニングでは各タスクに対して100%のパラメータが訓練される。