
초록
오픈도메인 대화의 자동 평가 문제는 여전히 해결되지 않은 큰 과제로 남아 있다. 이 분야에서 많은 연구가 이루어졌음에도 불구하고, 여전히 대화의 품질을 평가하기 위해 인간 평가자들의 참여가 필요하다. 그 결과, 대규모 평가를 수행하는 것은 일반적으로 매우 비용이 크다. 본 연구에서는 일반 언어 이해 평가(Genral Language Understanding Evaluation, GLUE) 벤치마크를 기반으로 훈련된 딥러닝 모델을 오픈도메인 대화의 품질 지표로 활용하는 방안을 탐구한다. 연구의 목적은 GLUE의 다양한 과제들을 대화 품질 평가의 서로 다른 관점으로 활용함으로써, 추가적인 학습 데이터나 품질 기준으로 사용되는 응답이 필요 없도록 하는 것이다. 이러한 특성 덕분에 본 방법은 다양한 품질 지표를 추론할 수 있으며, 구성 요소 기반의 종합 점수를 도출할 수 있다. 실험 결과, 통계적으로 유의미한 상관 계수 최대 0.7을 달성하였다.