17日前

条件付き適応型マルチタスク学習:少ないパラメータおよび少ないデータを用いた自然言語処理における転移学習の改善

Jonathan Pilault, Amine Elhattami, Christopher Pal
条件付き適応型マルチタスク学習:少ないパラメータおよび少ないデータを用いた自然言語処理における転移学習の改善
要約

マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習された知識を転移する有望な手法として注目されている。しかし、MTLには、低リソースタスクへの過剰適合、途方もない記憶の消失(カタストロフィックフォーゲット)、およびネガティブなタスク転移、すなわち学習干渉といった課題が伴う。自然言語処理(NLP)の分野では、最高の性能を得るためには、各タスクごとに別々のモデルを用いる必要があることが一般的である。しかしながら、多くのファインチューニングアプローチはパラメータ効率が低く、タスクごとに新たなモデルを導入する可能性がある一方で、事前学習段階で得た知識を失いやすいという問題を抱えている。本研究では、新しい条件付きアテンション機構とタスク依存型モジュールの集合を備えた、新しいTransformerアーキテクチャを提案する。この構成により、重みの共有を効率的に行い、事前学習モデルの半分の重みを固定することで、記憶の消失を緩和する。さらに、タスク間のデータ不均衡の悪影響を軽減するため、新しいマルチタスクデータサンプリング戦略を導入している。このアプローチにより、単一タスクのファインチューニング法を上回る性能を達成しつつ、パラメータとデータの両面で効率的(重み更新に約66%のデータを使用)であることを実証した。GLUEベンチマークにおいて、我々の8タスクモデルは他のアダプター手法を2.8%上回り、24タスクモデルはMTLおよび単一タスクファインチューニングを用いるモデルと比較して0.7~1.0%の性能向上を達成した。また、単一のマルチタスクモデルの拡張版が、26のNLPタスクにおいて競争力のある性能を発揮し、多数のテストおよび開発セットで最先端の結果を達成したことを示した。本研究のコードは、GitHubにて公開されており、https://github.com/CAMTL/CA-MTL から入手可能である。