11일 전

학습률 커리큘럼

Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe

초록

대부분의 커리큘럼 학습 방법은 데이터 샘플을 난이도 순으로 정렬하는 접근이 필요하지만, 이는 종종 복잡하고 번거로운 과정이다. 본 연구에서는 초기 학습 에포크 동안 데이터에 의존하지 않는 커리큘럼을 생성하기 위해 신경망의 각 층에 서로 다른 학습률을 사용하는 새로운 커리큘럼 학습 접근법인 학습률 커리큘럼(Learning Rate Curriculum, LeRaC)을 제안한다. 구체적으로, LeRaC는 입력층에 가까운 신경망 층에 더 높은 학습률을 할당하고, 입력층에서 멀어질수록 학습률을 점차 감소시킨다. 초기 학습 반복 과정에서 각 층의 학습률은 다양한 속도로 증가하여 결국 모든 층의 학습률이 동일한 값에 도달하게 된다. 이후부터는 신경망 모델을 일반적인 방식으로 학습한다. 이 방식은 예시의 난이도를 정렬할 필요 없이 모델 수준의 커리큘럼 학습 전략을 구현하며, 어떤 신경망 아키텍처에도 호환 가능하며 아키텍처에 관계없이 더 높은 성능을 달성할 수 있다. 우리는 컴퓨터 비전(CIFAR-10, CIFAR-100, Tiny ImageNet, ImageNet-200, Food-101, UTKFace, PASCAL VOC), 언어(BoolQ, QNLI, RTE), 오디오(ESC-50, CREMA-D) 영역의 총 12개 데이터셋에서 포괄적인 실험을 수행하였으며, 다양한 합성곱형(ResNet-18, Wide-ResNet-50, DenseNet-121, YOLOv5), 순환형(LSTM) 및 트랜스포머형(CvT, BERT, SepTr) 아키텍처를 고려하였다. 제안한 방법은 전통적인 학습 방식과 최신의 데이터에 의존하지 않는 커리큘럼 학습 방법인 Smoothing 기반 커리큘럼(Curriculum by Smoothing, CBS)과 비교하였다. CBS와 달리, LeRaC는 모든 데이터셋과 모델에서 표준 학습 방식 대비 일관된 성능 향상을 보였다. 또한, 학습 시간 측면에서 CBS를 크게 능가하며, LeRaC는 표준 학습 방식에 추가적인 비용 없이 구현 가능하다. 본 연구의 코드는 다음 링크에서 무료로 제공된다: https://github.com/CroitoruAlin/LeRaC.