2달 전

시퀀스 예측을 위한 액터-크리틱 알고리즘

Dzmitry Bahdanau; Philemon Brakel; Kelvin Xu; Anirudh Goyal; Ryan Lowe; Joelle Pineau; Aaron Courville; Yoshua Bengio
시퀀스 예측을 위한 액터-크리틱 알고리즘
초록

우리는 강화학습(RL)의 액터-크리틱 방법을 사용하여 신경망을 시퀀스 생성에 훈련시키는 접근법을 제시합니다. 현재 로그-가능도 훈련 방법은 훈련 모드와 테스트 모드 사이의 차이로 인해 제한됩니다. 이는 모델이 실제 토큰 대신 이전 추측에 기반하여 토큰을 생성해야 하기 때문입니다. 우리는 이 문제를 해결하기 위해, 액터 네트워크의 정책을 주어졌을 때 출력 토큰의 가치를 예측하도록 훈련된 \textit{크리틱} 네트워크를 도입합니다. 이로 인해 훈련 절차가 테스트 단계에 더욱 가까워지고, BLEU와 같은 작업 특异性 점수를 직접 최적화할 수 있게 됩니다. 특히, 우리는 이러한 기술을 전통적인 RL 환경이 아닌 지도 학습 환경에서 활용하므로, 크리틱 네트워크는 실제 출력에 조건부로 작동합니다. 실험 결과, 우리의 방법은 합성 작업뿐만 아니라 독일어-영어 기계 번역에서도 성능 개선을 보였습니다. 우리의 분석은 이러한 방법들이 기계 번역, 캡션 생성, 대화 모델링과 같은 자연어 생성 작업에 적용될 수 있는 길을 열었습니다.

시퀀스 예측을 위한 액터-크리틱 알고리즘 | 최신 연구 논문 | HyperAI초신경