
摘要
本文研究了元学习问题,其中存在一个任务分布,我们的目标是获得一个在面对从未见过的新任务时表现良好(即快速学习)的智能体。我们分析了一类算法,这些算法通过仅使用一阶导数进行元学习更新来学习参数初始化,从而能够在新任务上快速微调。这一类算法包括并推广了MAML的一阶近似方法(即忽略二阶导数的第一阶MAML),以及我们在此引入的一种新算法——Reptile。Reptile的工作原理是反复采样任务,在其上进行训练,并将初始化参数向该任务上的训练权重移动。我们扩展了Finn等人关于一阶元学习算法在少样本分类的一些知名基准测试中表现出色的结果,并提供了理论分析以解释这些算法为何有效。