17 天前
大图像下的内存高效元学习
John Bronskill, Daniela Massiceti, Massimiliano Patacchiola, Katja Hofmann, Sebastian Nowozin, Richard E. Turner

摘要
元学习(Meta-learning)方法在少样本分类任务中具有高效的推理计算性能,仅需几次优化步骤或一次前向传播即可完成新任务的学习,然而其训练过程却极为依赖内存资源。这一局限性源于:在执行任何优化步骤之前,必须完整处理一个任务的全部支持集(support set),而该支持集可能包含多达1000张图像。因此,若想充分利用大图像带来的性能提升,通常需要在多个GPU上并行化元学习器,但这在实际中可能不可行;或者在内存受限的情况下,不得不在任务规模与图像尺寸之间做出权衡。为克服上述两种方案的局限,本文提出LITE——一种通用且内存高效的周期式(episodic)训练框架,使得仅使用单个GPU即可在由大图像构成的大规模任务上进行元训练。该方法的核心思想在于:一个任务的梯度可被分解为该任务所有训练图像梯度之和。基于此,我们可在一次前向传播中处理整个任务的训练集,同时通过仅对这些图像的随机子集进行反向传播,实现显著的内存节省。我们证明,这种随机子集的梯度近似是完整梯度的无偏估计,因而不会显著影响模型性能。利用LITE训练元学习器,我们在真实世界中的ORBIT基准测试上取得了新的最先进(SOTA)准确率,并在具有挑战性的VTAB+MD基准测试的四个子任务中的三个上超越了当前领先的元学习方法。此外,LITE使元学习器在性能上能够与迁移学习(transfer learning)方法相媲美,但其测试阶段的计算成本仅为后者的极小部分。这一结果为近期“迁移学习足以解决少样本分类”的主流观点提供了有力反驳,凸显了元学习在高效、低推理开销场景下的独特价值。