이미지 단락 캡션 이미지 설명 데이터 세트

이미지 문단 캡션 데이터 세트는 이미지에 대해 생성된 설명 스니펫을 평가하는 데 사용할 수 있습니다. 이 데이터 세트에는 Visual Genome 데이터 세트의 19,561개 이미지가 포함되어 있습니다. 각 그림에는 한 개의 문단이 들어 있습니다. 훈련/평가/테스트 세트에는 각각 14,575개, 2,487개, 2,489개의 이미지가 포함되어 있습니다.
각 이미지에는 50개의 지역 설명(이미지의 특정 부분을 설명하는 구문), 35개의 객체, 26개의 속성, 21개의 관계, 그리고 17개의 질문-답변 쌍이 포함되어 있습니다.