HowToVQA69M 비디오 질의응답 데이터 세트

VQA는 시각적 질의응답을 의미합니다. HowToVQA69M은 69,270,581개의 질문과 답변을 포함하는 비디오 질문 답변 데이터 세트입니다. 기존 비디오 질의응답 데이터세트인 VideoQA의 두 배 규모입니다.
평균적으로 각 원시 영상은 12.1초 길이의 43개 영상 클립을 생성하며, 1.2개의 질문과 답변이 연결되어 있고, 질문에는 8.7개의 단어가, 답변에는 2.4개의 단어가 포함되어 있습니다. HowToVQA69M 데이터 세트는 매우 다양하며, 1,600만 개 이상의 고유 답변이 포함되어 있습니다. 이 중 200만 개 이상의 고유 답변이 두 번 이상 나타나고 30만 개 이상의 고유 답변이 10번 이상 나타납니다.
HowToVQA69M.torrent
시딩 1다운로드 중 1완료됨 476총 다운로드 횟수 407