
要約
事前学習された言語モデルは、非常に広範な言語理解タスクにおいて、最良の結果を達成するように微調整(fine-tuning)可能であるが、このプロセスの動的挙動、特にデータ量が少ない状況下における理解はまだ十分ではない。なぜ数百〜数千件のラベル付きデータセット上で、数億ものパラメータを持つモデルを、強力な正則化を用いずに、比較的単純な勾配降下法(例えば、vanillaな勾配降下)で効果的に調整できるのだろうか?本論文では、微調整の分析を「固有次元(intrinsic dimension)」の観点から行うことで、この驚くべき現象を説明するための実証的・理論的な直観が得られると主張する。実証的に、一般的な事前学習モデルは非常に低い固有次元を持つことを示す。すなわち、フルパラメータ空間と同等の微調整効果を発揮する低次元の再パラメータ化が存在するということである。例えば、RoBERTaモデルに対して、フルパラメータ空間にランダムに射影された200個の可学習パラメータのみを最適化することで、MRPCタスクにおいてフルパラメータ設定の90%の性能を達成できることが実証された。さらに、事前学習が固有次元を暗黙的に最小化すること、そして驚くべきことに、固定回数の事前学習更新後では、モデルが大きくなるほど固有次元が低くなる傾向があることを実証した。これは、大規模モデルの極めて高い有効性の一部を説明する要因となる。最後に、固有次元と低次元のタスク表現、および圧縮に基づく一般化境界との関係を結びつけることで、パラメータ総数に依存しない、固有次元に基づく一般化境界を提示した。