시각 장애인을 위한 VizWiz 시각적 질문 답변 데이터 세트

VizWiz-VQA(Visual Question Answering)는 시각 장애인을 위한 시각적 질의응답을 위한 이미지 데이터 세트입니다. 시각 장애인 사용자는 VizWiz 소프트웨어를 사용하여 사진을 찍고 사진에 대한 구두 질문과 해당 질문에 대한 군중 소싱 답변 10개를 녹음합니다. 이 데이터 세트는 다음 두 가지 문제를 해결하는 데 사용됩니다. 하나는 시각적 질문에 대한 답을 예측하는 것이고, 다른 하나는 시각적 질문에 답할 수 있는지 여부를 판단하는 것입니다. 이 데이터 세트는 시각 장애인이 삶의 장애물을 해결하는 데 도움이 되는 보다 일반적인 알고리즘을 연구하는 것을 목표로 합니다.
데이터 세트에는 (2020년 최신 버전)이 포함됩니다.:
- 20,523쌍의 훈련 이미지/질문
- 답변 훈련/답변 신뢰도 205,230
- 4319 검증 이미지/질문
- 43,190쌍의 검증된 답변/답변 신뢰도
- 8,000쌍의 테스트 이미지/질문
VisWiz.torrent
시딩 2다운로드 중 1완료됨 106총 다운로드 횟수 202