VidSitu 비디오 이해 데이터 세트

VidSitu는 비디오의 의미적 역할 레이블링 작업을 위한 데이터 세트(VidSRL)입니다. VidSitu는 29,000개의 10초짜리 동영상 클립을 포함하고 있으며, 2초 단위로 동사와 의미 역할이 주석으로 달린 대규모 비디오 이해 데이터 소스입니다. 엔티티는 일반적으로 조각의 각 이벤트에서 참조되고, 이벤트는 이벤트-이벤트 관계로 연결됩니다.
VidSitu의 클립은 방대한 영화 컬렉션(3K)에서 가져온 것이며, 복잡하고(단일 영상에 고유한 동사 4.2개) 다양합니다(각각 100개 이상의 토큰이 있는 동사 200개).