How2 다국어 비디오 데이터 세트

이는 13,500개의 비디오와 300시간 분량의 연설을 담고 있는 다국어 비디오 데이터 세트이며, 모두 영어 자막과 포르투갈어 번역이 포함되어 있습니다. 그 중 185,187개의 코퍼스가 훈련에 사용되고, 2,022개의 코퍼스가 개발(dev)에 사용되고, 2,361개의 코퍼스가 테스트에 사용됩니다. 이 데이터 세트는 다중 모드 언어 이해를 연구하는 데 사용될 수 있습니다.
이는 13,500개의 비디오와 300시간 분량의 연설을 담고 있는 다국어 비디오 데이터 세트이며, 모두 영어 자막과 포르투갈어 번역이 포함되어 있습니다. 그 중 185,187개의 코퍼스가 훈련에 사용되고, 2,022개의 코퍼스가 개발(dev)에 사용되고, 2,361개의 코퍼스가 테스트에 사용됩니다. 이 데이터 세트는 다중 모드 언어 이해를 연구하는 데 사용될 수 있습니다.