MConv: 다중 도메인에 걸친 다중모달 대화형 검색을 위한 환경
대화형 검색은 대화 연구 및 정보 검색(IR) 분야에서 핫 이슈로 부상했지만, 실제 돌파구는 가용한 데이터셋의 규모와 품질 한계에 의해 제한되어 왔다. 이러한 근본적인 장벽을 해결하기 위해, 우리는 다중 모달성과 다중 도메인에 걸친 인간 간 역할극 대화를 포괄하는 완전히 주석화된 데이터셋인 '다중 모달 다중 도메인 대화 데이터셋(MMConv)'을 소개한다. 본 연구의 기여는 두 가지 측면에서 이루어진다. 첫째, 사용자와 에이전트 쌍 간의 작업 지향 다중 모달 대화를 넘어서, 대화 belief 상태(dialogue belief states)와 대화 행동(dialogue acts)에 대해 완전히 주석화된 대화 데이터를 제공한다. 더욱 중요한 점은, 실제 사용자 환경을 반영한 다중 모달 대화형 검색을 수행할 수 있는 비교적 포괄적인 환경을 구축했다는 점이다. 이 환경은 구조화된 장소 데이터베이스, 주석화된 이미지 리포지터리, 그리고 커뮤니티 기반 지식 데이터베이스를 포함하고 있다. 데이터 수집 절차에 대한 자세한 설명과 데이터 구조 요약, 분석 결과도 함께 제시한다. 둘째, 대화 상태 추적(dialogue state tracking), 대화형 추천(conversational recommendation), 응답 생성(response generation)에 대한 벤치마크 결과를 보고하며, 다수 작업을 통합 처리할 수 있는 통합 모델도 제안한다. 각 작업에 대해 최신 기술을 적용하여 데이터셋의 활용 가능성을 입증하고, 현재 기술의 한계를 논의하며, 향후 연구를 위한 기준을 제시한다.