대화형 에이전트에서 작업 지향형 대화와 오픈 도메인 대화의 융합

지능형 대화 시스템 구축의 목표는 주로 두 가지 패러다임을 통해 별도로 추구되어 왔다. 하나는 목표 지향적 기능을 수행하는 목표 지향 대화(TOD) 시스템이고, 다른 하나는 비목표 지향적 대화(즉, 일상 대화)에 초점을 맞춘 개방형 대화(ODD) 시스템이다. 두 대화 방식은 인간의 친절한 보조자처럼 동일한 대화 내에서 자연스럽게 융합될 수 있다. 이러한 능력은 대화형 에이전트에게 매우 바람직하며, 통합을 통해 시스템이 더 접근성 있고 유용하게 활용될 수 있기 때문이다. 본 논문은 다단계 대화에서 TOD와 ODD를 융합하는 문제를 다룬다. 인기 있는 TOD 데이터셋인 MultiWOZ를 기반으로, 기존의 TOD 대화 문장을 재작성하고 새로운 ODD 대화 문장을 추가함으로써, 새로운 데이터셋인 FusedChat을 구축하였다. 이 과정을 통해 두 대화 모드의 교환을 포함하는 대화 세션을 구성하였다. 이 데이터셋은 모드 간 상호의존성(inter-mode contextual dependency)을 특징으로 하며, 두 모드의 대화 문장이 서로에게 영향을 미치는 구조를 갖는다. 또한 공통 참조(co-reference)와 생략(ellipsis)과 같은 풍부한 의존성 패턴이 포함되어 있다. 새로 구축된 FusedChat 데이터셋은 6만 개의 인간이 작성한 새로운 ODD 문장과 5천 개의 재작성된 TOD 문장을 포함하고 있으며, 대화 모델이 모드 간 대화를 수행할 수 있는 능력을 평가할 수 있는 기준(benchmark)을 제공한다. 이는 모델이 적절한 대화 모드를 판단하고, 모드 간 상호의존적인 맥락에 기반하여 응답을 생성해야 하는 더 도전적인 과제이다. 그러나 이러한 모델은 인간 수준의 대화 능력을 더 잘 모방할 수 있다. 우리는 이 작업에 대해 분류 기반의 두 단계 모델과 하나의 모델 내에서 두 가지 모드를 융합하는 두-in-one 모델을 포함한 기준 모델들을 평가하였다. 본 연구에서는 FusedChat과 기준 모델을 공개하여, 향후 모드 간 대화 시스템에 관한 연구를 촉진하고자 한다. 자세한 정보는 다음 GitHub 링크에서 확인할 수 있다: https://github.com/tomyoung903/FusedChat.