2달 전

OpenViDial 2.0: 시각적 맥락을 포함한 더 큰 규모의 오픈 도메인 대화 생성 데이터셋

Shuhe Wang; Yuxian Meng; Xiaoya Li; Xiaofei Sun; Rongbin Ouyang; Jiwei Li

초록

실제 인간 대화 과정을 더 잘 시뮬레이션하기 위해서는 모델이 이전 텍스트 맥락뿐만 아니라 시각적 맥락도 바탕으로 대화 발화를 생성해야 합니다. 그러나 다중 모달 대화 학습의 발전에 따라 데이터셋 규모가 점차 병목 현상이 되고 있습니다. 본 보고서에서는 이전 버전인 OpenViDial 1.0보다 규모가 큰 오픈 도메인 다중 모달 대화 데이터셋인 OpenViDial 2.0을 공개합니다. OpenViDial 2.0은 다양한 자료에서 추출한 영화나 드라마의 총 560만 개의 대화 차례를 포함하며, 각 대화 차례는 해당하는 시각적 맥락과 짝을 이루고 있습니다. 우리는 이 대규모 데이터셋이 오픈 도메인 다중 모달 대화 생성에 대한 향후 연구, 예를 들어 대화 생성을 위한 다중 모달 사전 학습 등에 도움이 될 것으로 기대합니다.