HyperAIHyperAI
il y a 11 jours

Curriculum d'itération d'apprentissage

Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe
Curriculum d'itération d'apprentissage
Résumé

La plupart des méthodes d'apprentissage par curriculum nécessitent une approche de tri des échantillons de données par difficulté, ce qui est souvent fastidieux à mettre en œuvre. Dans ce travail, nous proposons une nouvelle approche d'apprentissage par curriculum, nommée Learning Rate Curriculum (LeRaC), qui exploite l'utilisation de taux d'apprentissage différents pour chaque couche d'un réseau de neurones afin de créer un curriculum indépendant des données au cours des premières époques d'entraînement. Plus précisément, LeRaC attribue des taux d'apprentissage plus élevés aux couches proches de l'entrée, en diminuant progressivement ces taux pour les couches situées plus loin de l'entrée. Les taux d'apprentissage augmentent à des rythmes variés durant les premières itérations d'entraînement, jusqu'à ce qu'ils atteignent tous la même valeur. À partir de ce moment, le modèle est entraîné de manière classique. Cette stratégie établit un apprentissage par curriculum au niveau du modèle, qui ne nécessite pas de trier les exemples par difficulté et est compatible avec tout type de réseau de neurones, permettant d'atteindre des performances supérieures indépendamment de l'architecture. Nous menons des expériences approfondies sur 12 jeux de données provenant de domaines variés : vision par ordinateur (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), langage (BoolQ, QNLI, RTE) et audio (ESC-50, CREMA-D), en considérant diverses architectures convolutionnelles (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), récurrentes (LSTM) et transformateurs (CvT, BERT, SepTr). Nous comparons notre approche au régime d'entraînement conventionnel ainsi qu'à Curriculum by Smoothing (CBS), une méthode d'apprentissage par curriculum indépendante des données d'avant-garde. Contrairement à CBS, nos améliorations de performance par rapport au régime d'entraînement standard sont constantes sur l'ensemble des jeux de données et des modèles. En outre, nous surpassons significativement CBS en termes de temps d'entraînement (LeRaC n'ajoute aucune surcharge computationnelle par rapport à l'entraînement standard). Notre code est librement disponible à l'adresse suivante : https://github.com/CroitoruAlin/LeRaC.

Curriculum d'itération d'apprentissage | Articles de recherche récents | HyperAI