HyperAI

How2QA는 비디오 + 언어 학습 프레임워크 데이터 세트입니다. 이 데이터 세트는 다중 선택형 질의응답 주석을 위해 다른 AMT 근로자 그룹에게 선택된 비디오 클립의 동일한 세트를 제시합니다. 각 근로자에게 비디오 클립이 할당되고, 준비된 답변 4개(정답 1개와 주의를 산만하게 하는 답변 3개)를 바탕으로 질문을 작성하라는 요청을 받았습니다. 수집된 Q&A 쌍이 자막의 영향을 받지 않도록 비디오 내레이션은 직원에게 숨겨졌습니다. 이 데이터 세트에는 9,035개의 비디오와 44,007개의 질문-답변 쌍에서 선택한 22,000개의 60초 클립이 포함되어 있습니다.