Reptileを越えて:単一タスク正則化の向上のための勾配間におけるメタ学習されたドット積最大化

MAML、Reptile、FOMAMLなどのメタラーニングアルゴリズムは、多数のニューラルモデルにおける性能向上をもたらした。標準的な勾配降下法とこれらのメタラーニングアプローチの主な差異は、バッチ間の勾配のドット積を最大化するための勾配を小さな構成要素として含んでいる点にあり、これにより一般化性能が向上する。従来の研究では、勾配の整合性(alignment)が一般化性能と関連していることが示されており、またReptileアルゴリズムが単一タスク設定において一般化を改善するために用いられていることも明らかになっている。本研究では、単一タスク設定におけるこれらのアプローチに着想を得て、勾配のドット積からこの勾配を有限差分による一次近似法(finite differences first-order method)を用いて計算することを提案する。これにより、標準勾配に対するこの成分の重み付けを明示的に制御可能となる。本手法では、この勾配を正則化項として用いることで、異なるバッチ間における勾配の整合性を高めている。有限差分近似を採用しているため、直接ヘシアン(Hessian)を計算する場合に生じるO(n²)のメモリ使用量の問題を回避でき、大規模なモデルおよび大規模バッチサイズにも容易に適用可能である。実験結果では、Gigawordデータセットにおいて最先端の性能を達成し、SQuAD-v2.0、Quasar-T、NewsQA、およびすべてのSuperGLUEデータセットにおいて、BERT、RoBERTa、ELECTRAといった多様なモデルに対して性能向上を示した。また、単一タスクおよびマルチタスク設定の両方において、ReptileおよびFOMAMLを正則化手法として用いた従来のアプローチを上回る結果を示した。本手法はモデル非依存(model-agnostic)であり、追加の学習可能なパラメータを導入しない。