
초록
본 논문에서는 활동 비디오에서 잠재적 슈퍼이벤트(Latent Super-Events)를 학습하는 개념을 소개하고, 이를 지속적인 비디오에서의 활동 감지에 어떻게 이점을 제공하는지 설명합니다. 슈퍼이벤트는 특정 시간 구조로 함께 발생하는 여러 이벤트의 집합으로 정의되며, 서브이벤트(Sub-Events)와 반대되는 개념입니다. 실제 세계의 비디오는 여러 활동을 포함하며 거의 분할되지 않은 상태로 존재합니다(예: 감시 비디오). 이러한 상황에서 잠재적 슈퍼이벤트를 학습하면 모델이 비디오 내에서 이벤트들이 시간적으로 어떻게 관련되어 있는지를 포착할 수 있게 됩니다. 우리는 시간 구조 필터(Temporal Structure Filters)를 설계하여 모델이 비디오의 특정 부분 구간에 초점을 맞출 수 있도록 하였으며, 이를 소프트 어텐션 메커니즘(Soft Attention Mechanism)과 함께 사용하여 잠재적 슈퍼이벤트의 표현을 학습합니다. 슈퍼이벤트 표현은 프레임별 또는 세그먼트별 CNNs와 결합되어 프레임 레벨 주석을 제공합니다. 우리의 접근 방식은 완전히 미분 가능하도록 설계되어, 잠재적 슈퍼이벤트 표현과 이를 사용하는 활동 감지기(Activity Detector)가 함께 엔드 투 엔드로 학습될 수 있습니다. 다수의 공개 비디오 데이터셋을 이용한 실험 결과, 제안된 잠재적 슈퍼이벤트 학습 개념이 활동 감지에 크게 기여하며, 기존 최신 기술(State-of-the-Arts)을 발전시키는 것을 확인하였습니다.