TVQA 비디오 질의응답 데이터 세트

TVQA 데이터 세트는 6개의 고전 미국 TV 시리즈에서 나온 영상을 담은 대규모 비디오 질의응답 데이터 세트입니다. 이 데이터 세트에는 60~90초 길이의 비디오 클립 21.8K개에서 추출한 약 152.5K개의 질문-답변 쌍이 포함되어 있으며, 총 길이는 460시간이 넘습니다. 이러한 질문-답변 쌍은 8:1:1의 비율로 훈련, 검증 및 테스트 세트에서 사용됩니다.
TVQA 데이터 세트의 질문은 질의 응답과 현지화라는 두 부분을 포함하여 결합된 방식으로 설계되었으며, 각 질문에는 시간적 현지화가 있습니다. 이러한 질문에 답하려면 모델이 일정 수준의 시간적 위치 파악 능력과 대화(자막) 및 비디오(비디오)를 이해할 수 있는 능력이 필요합니다.