2달 전

대립 학습을 이용한 신경 대화 생성

Jiwei Li; Will Monroe; Tianlin Shi; Sébastien Jean; Alan Ritter; Dan Jurafsky
대립 학습을 이용한 신경 대화 생성
초록

본 논문에서는 튜링 테스트에서 영감을 얻어 오픈 도메인 대화 생성에 대한 적대적 훈련 방법을 제안합니다. 시스템은 인간이 생성한 대화 발화와 구별할 수 없는 시퀀스를 생성하도록 훈련됩니다. 이 작업을 강화 학습(RL) 문제로 설정하여 두 개의 시스템을 공동으로 훈련시키는데, 하나는 응답 시퀀스를 생성하는 모델이고, 다른 하나는 튜링 테스트에서 인간 평가자와 유사한 역할을 하는 판별모델입니다. 이 판별모델의 출력은 생성 모델의 보상으로 사용되어, 시스템이 주로 인간 대화와 유사한 대화를 생성하도록 유도합니다.적대적 훈련 외에도, 우리는 적대적 {\em 평가}를 위한 모델을 설명하는데, 이 모델은 적대자를 속이는 성공률을 대화 평가 지표로 사용하면서 여러 잠재적인 함정을 피하는 방법을 제시합니다. 다양한 지표, 특히 적대적 평가를 포함한 실험 결과는 적대적으로 훈련된 시스템이 이전 기준모델보다 더 높은 품질의 응답을 생성한다는 것을 입증하고 있습니다.