한 달 전
대화 학습에 있어서 인간의 가르침과 피드백을 활용한 엔드투엔드 훈련 가능한 과제 지향 대화 시스템
Bing Liu; Gokhan Tur; Dilek Hakkani-Tur; Pararth Shah; Larry Heck

초록
본 연구에서는 온라인 사용자 상호작용을 통해 작업 지향 대화 시스템을 훈련시키는 하이브리드 학습 방법을 제시합니다. 작업 지향 대화 학습의 일반적인 방법으로는 감독 학습 모델의 사전 훈련 후 사용자 피드백을 활용한 강화 학습이 있습니다. 이러한 학습 방법의 효율성은 오프라인 훈련 단계와 온라인 상호작용 학습 단계 간의 대화 상태 분포 불일치로 인해 저하될 수 있습니다. 이 문제를 해결하기 위해, 우리는 인간의 가르침과 피드백을 통해 효과적으로 학습할 수 있는 하이브리드 모방 및 강화 학습 방법을 제안합니다. 제안된 학습 방법으로 최적화할 수 있는 신경망 기반 작업 지향 대화 에이전트를 설계했습니다. 실험 결과, 본 연구에서 제안한 엔드투엔드 대화 에이전트는 사용자의 가르침을 통한 모방 학습으로 자신의 실수로부터 효과적으로 학습할 수 있음을 보여주었습니다. 모방 학습 단계 이후에 사용자 피드백을 활용한 강화 학습을 적용하면 에이전트가 작업을 성공적으로 완료하는 능력이 더욱 향상됩니다.