VisDial 이미지 대화 데이터 세트

Visual Dialog의 전체 이름인 VisDial은 MS COCO 데이터 세트의 이미지를 기반으로 한 수동 주석 문제가 포함된 데이터 세트입니다.
이 데이터 세트는 두 피험자가 Amazon Mechanical Turk에서 사진에 대해 대화를 나누는 것을 통해 개발되었습니다. 그 중 한 명은 질문하는 사람 역할을 하고, 다른 한 명은 답변하는 사람 역할을 합니다. 질문자는 이미지의 텍스트 설명(즉, MS COCO 데이터 세트의 이미지 캡션)만 볼 수 있으며, 원본 이미지는 질문자에게 보이지 않습니다. 그들의 과제는 "그 장면을 더 잘 상상하기 위해" 이 이미지 주변에 질문을 던지는 것이었습니다. 응답자는 질문자가 제기한 질문과 이미지, 캡션을 보고 대답합니다. 두 사람은 최대 10라운드까지 질문을 하고 답하며 대화를 이어갈 수 있습니다.
VisDial v1.0에는 다음이 포함됩니다.
- 훈련 세트: 1,23,287개 이미지, 이미지당 10라운드의 대화
- 검증 세트: 2,064개 이미지, 이미지당 10라운드의 대화
- 테스트 세트: 8,000개의 이미지, 이미지당 대화 1턴.
VisDial.torrent
시딩 2다운로드 중 1완료됨 446총 다운로드 횟수 542