바이올린 비디오 및 언어 추론 데이터 세트

바이올린은 비디오 및 언어 추론(VIdeO-and-Language INference)을 의미하며, 비디오와 텍스트에 대한 다중 모드 이해 작업에 사용될 수 있습니다.
이 데이터 세트에는 582시간 이상의 비디오를 다루는 15,887개의 비디오 클립에서 95,322개의 비디오-가설 쌍이 포함되어 있습니다. 이러한 비디오 클립에는 다양한 시간적 역학, 사건 변화 및 대인 관계 상호 작용이 담긴 풍부한 내용이 담겨 있습니다. 데이터는 두 가지 출처에서 수집되었습니다. (i) 인기 있는 TV 프로그램, (ii) YouTube 채널의 동영상 클립.