2달 전
GALAXY: 반감독 학습과 명시적 정책 주입을 활용한 과제 지향 대화를 위한 생성적 사전 훈련 모델
Wanwei He; Yinpei Dai; Yinhe Zheng; Yuchuan Wu; Zheng Cao; Dermot Liu; Peng Jiang; Min Yang; Fei Huang; Luo Si; Jian Sun; Yongbin Li

초록
事전 학습 모델은 과업 지향 대화 시스템의 성능 향상에 매우 효과적임이 입증되었습니다. 그러나 현재의 사전 학습 방법들은 주로 대화 이해 및 생성 작업을 강화하는 데 초점을 맞추고 있으며, 대화 정책의 활용을 간과하고 있습니다. 본 논문에서는 GALAXY라는 새로운 사전 학습 대화 모델을 제안합니다. 이 모델은 준지도 학습을 통해 제한된 라벨링된 대화와 대규모 비라벨링된 대화 코퍼스에서 명시적으로 대화 정책을 학습합니다. 구체적으로, 사전 학습 중에 정책 최적화를 위한 대화 행동 예측 작업을 도입하였으며, 비라벨링된 대화의 도움으로 학습된 표현을 개선하기 위해 일관성 규제 항을 사용하였습니다. 또한 적절한 비라벨링된 대화 샘플의 가중치를 조정하기 위한 게이팅 메커니즘도 구현하였습니다. 경험적인 결과는 GALAXY가 과업 지향 대화 시스템의 성능을 크게 향상시키며, In-Car, MultiWOZ2.0 및 MultiWOZ2.1 벤치마크 데이터셋에서 새로운 최고 수준의 성과를 달성함을 보여줍니다. 각각 이들 데이터셋의 엔드투엔드 통합 점수를 2.5점, 5.3점, 5.5점 개선했습니다. 또한 다양한 저자원 환경에서 GALAXY가 기존 모델보다 더 강력한 소수 샷(few-shot) 능력을 가지고 있음을 보여주었습니다.