11 天前

学习率课程

Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe
学习率课程
摘要

大多数课程学习方法需要对数据样本按难度进行排序,这一过程通常繁琐且难以实施。在本工作中,我们提出了一种新型课程学习方法——学习率课程学习(Learning Rate Curriculum, LeRaC),该方法通过为神经网络的每一层分配不同的学习率,在初始训练阶段构建一种与数据无关的课程学习机制。具体而言,LeRaC为靠近输入层的神经网络层分配较高的学习率,并随着层数远离输入层而逐步降低学习率。在训练初期的多个迭代过程中,各层的学习率以不同速率上升,直至全部达到相同的值。此后,模型即按照常规方式继续训练。该方法形成了一种模型层面的课程学习策略,无需对样本按难度排序,且适用于任意神经网络架构,无论模型结构如何,均能显著提升性能。我们在计算机视觉(CIFAR-10、CIFAR-100、Tiny ImageNet、ImageNet-200、Food-101、UTKFace、PASCAL VOC)、自然语言处理(BoolQ、QNLI、RTE)和音频处理(ESC-50、CREMA-D)领域的12个数据集上开展了全面实验,覆盖多种卷积网络(ResNet-18、Wide-ResNet-50、DenseNet-121、YOLOv5)、循环网络(LSTM)以及Transformer架构(CvT、BERT、SepTr)。我们将所提方法与传统的训练方式,以及当前最先进的无数据依赖课程学习方法——平滑课程学习(Curriculum by Smoothing, CBS)进行了对比。与CBS不同,我们的方法在所有数据集和模型上均一致地超越标准训练方式,展现出稳定的性能提升。此外,在训练效率方面,LeRaC显著优于CBS,且无需额外计算开销(其训练成本与标准训练相当)。相关代码已公开,可访问:https://github.com/CroitoruAlin/LeRaC。

学习率课程 | 最新论文 | HyperAI超神经