
摘要
尽管预训练语言模型可以通过微调在众多自然语言理解任务中达到顶尖性能,但这一过程的内在机制尚未被充分理解,尤其是在数据量极少的情况下。为何我们能够使用相对简单的梯度下降算法(例如无需强正则化)来微调参数量达数亿的模型,仅基于数百或数千个标注样本?在本文中,我们提出,通过内在维度(intrinsic dimension)的视角来分析微调过程,能够为我们提供实证与理论上的直观解释,以阐明这一令人瞩目的现象。 我们通过实验证明,常见的预训练模型具有极低的内在维度——换言之,存在一种低维参数重参数化方式,其在微调中的表现与完整参数空间相当。例如,仅通过随机投影将200个可训练参数映射回全参数空间,即可使RoBERTa模型在MRPC任务上达到全参数微调性能的90%。 此外,我们实证发现,预训练过程本质上会隐式地最小化模型的内在维度;更令人意外的是,在经过相同数量的预训练更新后,模型规模越大,其内在维度反而越低,这在一定程度上解释了大模型为何表现出如此卓越的性能。 最后,我们将内在维度与低维任务表征、基于压缩的泛化界相联系,推导出一类基于内在维度的泛化界,其泛化性能的上界不再依赖于模型的完整参数量,从而为理解大规模模型的泛化能力提供了新的理论框架。