15일 전

지속 학습: 추론에서 학습을 위한 자기지도 메타학습

{Sai Chetan Chinthakindi, Akhil Kedia}
지속 학습: 추론에서 학습을 위한 자기지도 메타학습
초록

다수의 머신러닝 알고리즘에서 일반적으로 사용되는 접근 방식은, 하류 작업에서 성능을 향상시키기 위해 대규모의 레이블이 없는 데이터에 대해 사전에 자기지도 학습(self-supervised learning)을 수행한 후, 미세조정(fine-tuning)을 수행하는 것이다. 언어 모델링 분야에서 새로운 접근 방식인 동적 평가(dynamic evaluation)는 추론 중에 쉽게 접근 가능한 진짜 레이블(trivially-present ground-truth labels)을 활용하여 훈련된 모델을 추가로 미세조정함으로써 성능을 크게 향상시킨다. 그러나 이 방법은 추론 과정에서 진짜 레이블이 존재하지 않는 분류 작업에는 쉽게 적용되기 어렵다. 본 연구에서는 자기학습(self-training)을 활용하고, 모델 자체의 클래스 균형 잡힌 예측값(가짜 레이블, pseudo-labels)에서 손실을 역전파하는 방식으로 이 문제를 해결한다. 또한 메타학습에서 유래한 Reptile 알고리즘을 변형하여 사전 훈련된 가중치에 대한 유도 편향(inductive bias)을 도입함으로써 일반화 성능을 향상시킨다. 제안하는 방법은 BERT, Electra, ResNet-50와 같은 표준 백본 모델이 SQuAD 및 NewsQA에서의 질의응답, SuperGLUE 벤치마크 작업, Ubuntu Dialog corpus v2.0에서의 대화 응답 선택, MNIST 및 ImageNet에서의 이미지 분류 등 다양한 작업에서 성능을 향상시킨다. 이는 기존의 모델 구조를 변경하지 않고도 가능하다. 제안된 방법은 기존의 접근 방식을 모두 능가하며, 어떤 분류 모델이라도 추론 중에 자기지도 미세조정을 수행할 수 있도록 하여 타겟 도메인에 더 잘 적응할 수 있도록 한다. 또한 이 방법은 다양한 모델에 쉽게 적용 가능하며, 온라인 학습 및 전이 학습(transfer learning) 환경에서도 효과적으로 작동한다.

지속 학습: 추론에서 학습을 위한 자기지도 메타학습 | 최신 연구 논문 | HyperAI초신경