9일 전

TAG: Task-based Accumulated Gradients for Lifelong Learning

Pranshu Malviya, Balaraman Ravindran, Sarath Chandar
TAG: Task-based Accumulated Gradients for Lifelong Learning
초록

장기적인 학습 환경에서 에이전트가 지속적으로 새로운 작업들을 접하게 되면, 이전 작업들을 통해 얻은 지식을 활용하여 새로운 작업을 더 효과적으로 학습할 수 있다. 이러한 상황에서 효율적인 지식 표현 방식을 도출하는 것은 매우 도전적인 문제로 남아 있다. 기존의 대부분의 연구들은 과거 작업들에서 일부 예시를 리플레이 버퍼에 저장하거나, 각 작업에 대해 별도의 파라미터 세트를 할당하거나, 정규화 항을 도입하여 파라미터에 대한 과도한 업데이트를 억제하는 방식을 제안해왔다. 기존의 방법들은 일반적인 태스크 무관(stochastic gradient descent) 업데이트 규칙을 사용하지만, 본 연구에서는 작업 간 유사성에 따라 학습률을 적응적으로 조정하는 태스크 인지 최적화 알고리즘을 제안한다. 우리는 각 작업에 특화된 기울기를 누적함으로써 파라미터 업데이트 과정에서 취한 방향성을 활용한다. 이러한 작업 기반 누적 기울기는 작업 스트림 전반에 걸쳐 유지되고 업데이트되는 지식 기반 역할을 한다. 실험적으로 제안하는 적응형 학습률이 치명적인 망각(catastrophic forgetting)을 효과적으로 완화할 뿐만 아니라, 긍정적인 역방향 전이(positive backward transfer)를 가능하게 함을 입증하였다. 또한, 수많은 작업을 포함하는 복잡한 데이터셋에서 장기 학습 성능 측면에서 기존의 여러 최첨단 기법들을 상회함을 보였다.