한 달 전

질문 생성 모델의 보상 평가

Tom Hosking; Sebastian Riedel
질문 생성 모델의 보상 평가
초록

최근의 질문 생성 접근 방식은 기계 번역 분야에서의 발전에 영감을 받아 Seq2Seq 아키텍처를 수정하여 사용하고 있습니다. 모델들은 교사 강제(teacher forcing)를 통해 단계별 예측만 최적화하도록 훈련됩니다. 그러나 테스트 시에는 모델이 전체 시퀀스를 생성하도록 요구되며, 이로 인해 생성 과정에서 오류가 전파됩니다(노출 편향, exposure bias). 여러 저자들은 이 편향을 극복하기 위해 강화 학습을 사용하여 훈련 데이터와 덜 밀접하게 연결된 보상(reward)으로 최적화하는 방법을 제안하였습니다. 우리는 직접 품질 지표들을 최적화하며, 새로운 접근 방식으로 훈련 데이터로부터 직접 학습한 판별기(discriminator)를 사용합니다. 정책 경사(policy gradient) 방법이 지표로 사용되는 보상과 실제 데이터 사이의 결합을 완화할 수 있음을 확인하였으며, 이는 지표 값의 증가로 이어집니다. 인간 평가를 수행한 결과, 이러한 지표들이 질문의 질을 잘 대변한다고 여겨졌지만 실제로는 인간의 판단과 일치하지 않으며, 모델은 단순히 보상 출처의 약점을 이용하는 것을 배웠다는 점을 보여주었습니다.

질문 생성 모델의 보상 평가 | 최신 연구 논문 | HyperAI초신경