
초록
이 연구는 비디오에서 발생하는 다양한 의미 수준의 인간 활동을 인식하는 것을 다룹니다. 이는 개인 행동, 상호작용, 그리고 그룹 활동을 포함합니다. 인식은 두 단계의 장단기 기억(LSTM) 네트워크 계층 구조를 사용하여 이루어지며, 이 구조는 순방향 딥 아키텍처를 형성하며 엔드투엔드로 훈련될 수 있습니다. 기존 LSTM 아키텍처와 비교하여, 우리는 이 접근법을 신뢰도-에너지 재귀 네트워크(CERN)라고 명명한 두 가지 주요 기여를 합니다. 첫째, 일반적으로 사용되는 소프트맥스 레이어 대신 예측을 위해 새로운 에너지 레이어(EL)를 정의합니다. 둘째, 불확실성 하에서 수치적으로 안정적이지 않을 수 있는 일반적인 최소 에너지 클래스 할당 대신 EL이 추가로 솔루션의 p-값을 계산하도록 지정하여 가장 신뢰할 수 있는 에너지 최소값을 추정합니다. Collective Activity 및 Volleyball 데이터셋에 대한 평가는 (i) 우리의 두 가지 기여가 일반적인 소프트맥스와 에너지 최소화 공식에 비해 우수함을 입증하고 (ii) 기존 최상의 방법론들보다 더 우수한 성능을 보임을 입증합니다.