2달 전

시간의 순간 데이터셋: 이벤트 이해를 위한 100만 개의 비디오

Monfort, Mathew ; Andonian, Alex ; Zhou, Bolei ; Ramakrishnan, Kandan ; Bargal, Sarah Adel ; Yan, Tom ; Brown, Lisa ; Fan, Quanfu ; Gutfruend, Dan ; Vondrick, Carl ; Oliva, Aude
시간의 순간 데이터셋: 이벤트 이해를 위한 100만 개의 비디오
초록

우리는 '시간의 순간들(Moments in Time) 데이터셋'을 소개합니다. 이 데이터셋은 3초 이내에 전개되는 동적 사건에 해당하는 100만 개의 짧은 비디오로 구성된 대규모 인간 주석 데이터입니다. 3초짜리 비디오에서도 공간-음향-시간 역학을 모델링하는 것은 많은 도전과제를 제시합니다: 의미 있는 사건은 사람뿐만 아니라 물체, 동물, 그리고 자연 현상도 포함하며; 시각적 및 청각적 사건은 시간적으로 대칭일 수 있으며("열기"는 "닫기"의 역순임), 일시적이거나 지속적일 수 있습니다. 우리는 데이터셋의 주석 과정(339개의 다른 클래스 중 하나의 행동 또는 활동 라벨로 각 비디오가 태그됨)을 설명하고, 다른 대규모 행동 인식 비디오 데이터셋과 비교하여 그 규모와 다양성을 분석하며, 공간, 시간, 음향 세 가지 모달리티를 각각 그리고 동시에 다루는 여러 기준 모델의 결과를 보고합니다. '시간의 순간들' 데이터셋은 시각적 및 청각적 모달리티 모두에서 큰 범위와 다양성을 갖도록 설계되어 있어, 인간이 일상적으로 처리하는 복잡성과 추상적인 사고 능력까지 확장할 수 있는 모델 개발에 새로운 도전 과제가 될 수 있습니다.