2달 전

Ubuntu 대화 코퍼스: 비정형 다단계 대화 시스템 연구를 위한 대규모 데이터셋

Ryan Lowe; Nissan Pow; Iulian Serban; Joelle Pineau
Ubuntu 대화 코퍼스: 비정형 다단계 대화 시스템 연구를 위한 대규모 데이터셋
초록

이 논문은 우분투 대화 코퍼스(Ubuntu Dialogue Corpus)를 소개합니다. 이 데이터셋은 약 100만 개의 다중 턴 대화를 포함하고 있으며, 총 700만 개 이상의 발화와 1억 개 이상의 단어로 구성되어 있습니다. 이는 라벨이 부착되지 않은 대규모 데이터를 활용할 수 있는 신경 언어 모델 기반의 대화 관리자 구축 연구에 독특한 자원을 제공합니다. 이 데이터셋은 대화 상태 추적 도전 과제(DSTC) 데이터셋에서 볼 수 있는 다중 턴 특성과 트위터와 같은 마이크로블로그 서비스에서 발생하는 상호작용의 비정형적인 성격을 모두 가지고 있습니다. 또한 이 데이터셋 분석에 적합한 두 가지 신경 학습 아키텍처를 설명하며, 최적의 다음 응답 선택 작업에서 벤치마크 성능을 제공합니다.