17일 전

MDD-Eval: 증강된 데이터를 통한 자기학습을 통한 다중 도메인 대화 평가

Chen Zhang, Luis Fernando D&#39, Haro, Thomas Friedrichs, Haizhou Li
MDD-Eval: 증강된 데이터를 통한 자기학습을 통한 다중 도메인 대화 평가
초록

챗봇은 일반적인 대화, 지식 교환, 성격 기반 대화 등 다양한 분야에서 인간과 유사한 대화를 수행하도록 설계된다. 이러한 대화형 에이전트의 품질을 측정하기 위해 대화 평가기(다이얼로그 평가자)는 다양한 분야에서 평가를 수행할 수 있어야 한다. 그러나 현재 최첨단의 자동 대화 평가 지표(ADMs) 대부분은 다중 분야 평가를 위한 설계가 되어 있지 않다. 이에 따라 우리는 다중 분야 평가에 일반적이고 강건한 프레임워크인 MDD-Eval을 개발하고자 하였다. 구체적으로, 먼저 인간의 주석 데이터를 사용해 교사 평가기(teacher evaluator)를 학습시켜 특정 분야에서 좋은 대화 응답과 나쁜 응답을 구분할 수 있는 평가 능력을 습득한 후, 교사가 주석한 다중 분야 데이터를 활용한 자기학습(self-training) 전략을 적용하여 새로운 평가기를 학습시킨다. 이 과정을 통해 새로운 평가기는 여러 분야에 걸쳐 일반화된 성능을 발휘할 수 있다. MDD-Eval은 여섯 개의 대화 평가 벤치마크에서 광범위하게 평가되었으며, 실험 결과 MDD-Eval 프레임워크는 모든 평가 벤치마크에서 평균 스피어만 상관 계수(Spearman correlation) 기준으로 기존 최고 수준의 ADMs 대비 절대적으로 7%의 성능 향상을 달성함을 확인하였다.

MDD-Eval: 증강된 데이터를 통한 자기학습을 통한 다중 도메인 대화 평가 | 최신 연구 논문 | HyperAI초신경