대규모 통합 비디오 이해

최근 몇 년 동안 풍부한 주석을 가진 벤치마크 덕분에 비디오 인식이 크게 발전했습니다. 그러나 연구는 여전히 인간 행동이나 스포츠 인식에 주로 제한되어 있으며, 이는 매우 특정한 비디오 이해 작업에 초점을 맞추고 있어 전체 비디오 내용을 설명하는 데 큰 간극을 보이고 있습니다. 이러한 간극을 메우기 위해 우리는 대규모 "전반적 비디오 이해 데이터셋" (Holistic Video Understanding Dataset, HVU)를 제시합니다. HVU는 다중 라벨 및 다중 작업 비디오 이해를 포괄적인 문제로 다루며, 동적 장면에서 여러 의미론적 측면의 인식을 포함합니다.HVU는 총 약 572,000개의 비디오와 훈련, 검증, 테스트 세트에 걸쳐 900만 개의 주석을 포함하며, 3,142개의 라벨을 아우릅니다. HVU는 장면, 객체, 행동, 이벤트, 속성 및 개념 등의 카테고리에서 정의된 의미론적 측면을 포괄하여 실제 상황을 자연스럽게 포착합니다.우리는 세 가지 도전적인 작업에서 HVU의 일반화 능력을 시연합니다: 1) 비디오 분류, 2) 비디오 캡셔닝 및 3) 비디오 클러스터링 작업입니다. 특히 비디오 분류에 대해 우리는 "전반적 외관 및 시간 네트워크" (Holistic Appearance and Temporal Network, HATNet)라는 새로운 시공간 딥 신경망 구조를 소개합니다. HATNet은 외관과 시간 정보의 중간 표현을 결합하여 2D와 3D 구조를 하나로 융합하는 것을 기반으로 합니다. HATNet은 다중 라벨 및 다중 작업 학습 문제에 중점을 두고 있으며 엔드투엔드 방식으로 훈련됩니다. 우리의 실험을 통해 전반적 표현 학습이 보완적이며 많은 실제 응용 프로그램을 가능하게 하는 중요한 역할을 할 수 있음을 확인하였습니다.