Lernraten-Curriculum

Die meisten Ansätze des Curriculum Learning erfordern eine Methode zur Sortierung der Datensamples nach Schwierigkeit, was oft aufwendig ist. In dieser Arbeit stellen wir einen neuartigen Curriculum-Learning-Ansatz namens Learning Rate Curriculum (LeRaC) vor, der die Verwendung unterschiedlicher Lernraten für jeweils eine Schicht eines neuronalen Netzes nutzt, um während der ersten Trainingsphasen ein datenunabhängiges Curriculum zu generieren. Genauer gesagt weist LeRaC den Schichten näher am Eingang des Netzwerks höhere Lernraten zu und verringert diese schrittweise, je weiter die Schichten vom Eingang entfernt sind. Während der ersten Trainingsiterationen erhöhen sich die Lernraten in unterschiedlichem Tempo, bis alle Schichten die gleiche Lernrate erreichen. Ab diesem Punkt wird das neuronale Modell wie üblich weiter trainiert. Dies ermöglicht eine modellbasierte Curriculum-Learning-Strategie, die keine Sortierung der Beispiele nach Schwierigkeit erfordert und mit beliebigen neuronalen Netzwerken kompatibel ist, wodurch sich universell höhere Leistungswerte erzielen lassen, unabhängig von der Architektur. Wir führen umfassende Experimente an 12 Datensätzen aus den Bereichen Computer Vision (CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), Sprachverarbeitung (BoolQ, QNLI, RTE) und Audio (ESC-50, CREMA-D) durch und berücksichtigen verschiedene Architekturen, darunter verschiedene convolutionale Netzwerke (ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), rekurrente Netzwerke (LSTM) und Transformer (CvT, BERT, SepTr). Wir vergleichen unseren Ansatz mit dem herkömmlichen Trainingsregime sowie mit Curriculum by Smoothing (CBS), einem aktuellen, datenunabhängigen Curriculum-Learning-Ansatz. Im Gegensatz zu CBS zeigen unsere Leistungsverbesserungen gegenüber dem Standard-Trainingsregime konsistent über alle Datensätze und Modelle hinweg. Zudem übertreffen wir CBS deutlich hinsichtlich der Trainingszeit (LeRaC verursacht keine zusätzlichen Kosten gegenüber dem Standard-Trainingsregime). Unser Code ist frei verfügbar unter: https://github.com/CroitoruAlin/LeRaC.