응답 선택 모델은 정말로 다음을 알고 있을까요? 다중 턴 응답 선택을 위한 발화 조작 전략

본 논문에서는 사용자와 시스템의 발화 이력을 바탕으로 검색 기반 다단계 대화 시스템에서 최적의 응답을 선택하는 작업을 연구합니다. 최근에 사전 학습된 언어 모델(예: BERT, RoBERTa, ELECTRA)은 다양한 자연어 처리 작업에서 상당한 개선을 보였습니다. 이러한 모델을 이용하여 다단계 대화 시스템에서의 응답 선택과 유사한 작업들을 대화-응답 이진 분류 작업으로 포맷팅하여 해결할 수 있습니다. 그러나 이러한 접근 방식을 사용한 기존 연구들은 성공적으로 최신 결과를 얻었음에도 불구하고, 이러한 방식으로 학습된 언어 모델들이 종종 다단계 대화 시스템의 순차적인 특성을 무시하고 역사와 후보 간의 관련성에만 근거하여 예측하는 경향이 있다는 것을 관찰하였습니다. 이는 응답 선택 작업만으로는 발화 간의 시간적 의존성을 학습하기에 부족하다는 것을 시사합니다. 이를 해결하기 위해 우리는 발화 조작 전략(Utterance Manipulation Strategies, UMS)을 제안합니다. 구체적으로, UMS는 삽입, 삭제, 검색 등의 여러 전략으로 구성되며, 이들은 응답 선택 모델이 대화 일관성을 유지하도록 돕습니다. 또한, UMS는 추가적인 주석이 필요하지 않은 자기 감독 방법이므로 기존 접근 방식에 쉽게 통합될 수 있습니다. 여러 언어와 모델에 걸친 광범위한 평가 결과, UMS가 대화 일관성을 가르치는데 매우 효과적이며, 이로 인해 여러 공개 벤치마크 데이터셋에서 모델들이 현저한 마진으로 최신 결과를 초월하였음을 보여주었습니다.