
초록
우리는 표준의 모델 자유형 강화학습 알고리즘에 적용할 수 있는 간단한 데이터 증강 기법을 제안한다. 이 기법을 통해 보조 손실 함수나 사전 훈련 없이도 픽셀 데이터로부터 직접 견고한 학습이 가능하다. 본 방법은 컴퓨터 비전 작업에서 흔히 사용되는 입력 노이즈를 활용하여 가치 함수의 정규화를 달성한다. 기존의 모델 자유형 접근 방식, 예를 들어 소프트 액터-크리틱(SAC)은 이미지 픽셀로부터 깊은 신경망을 효과적으로 훈련시키는 데 한계가 있다. 그러나 본 연구에서 제안하는 증강 기법을 도입함으로써 SAC의 성능이 크게 향상되며, 딥마인드 컨트롤 스위트(DeepMind Control Suite)에서 최신 기준 성능을 달성하게 되었고, 모델 기반 방법(예: Dreamer, PlaNet, SLAC)과 최근 제안된 대조 학습 기법(CURL)을 모두 능가한다. 본 방법은 모델 자유형 강화학습 알고리즘과 어떤 경우에도 결합 가능하며, 구현에 필요한 수정은 거의 없이 가능하다. 구현 코드는 다음 링크에서 확인할 수 있다: https://sites.google.com/view/data-regularized-q.