
초록
장기 비편집 영상에서 행동 구간을 시간적으로 위치시키고 분류하는 것은 감시 및 로봇공학과 같은 많은 응용 분야에서 특히 관심을 받고 있습니다. 전통적인 접근 방식은 프레임별 확률을 생성한 후 이를 고차원 시간 모델에 입력하는 두 단계 파이프라인을 따르지만, 최근의 접근 방식은 시간적 합성곱을 사용하여 영상 프레임을 직접 분류합니다. 본 논문에서는 시간적 행동 분할 작업을 위한 다단계 아키텍처를 소개합니다. 각 단계는 초기 예측을 생성하고 다음 단계에서 이를 개선하기 위해 희소화된 시간 합성곱의 집합을 특징으로 합니다. 이 아키텍처는 분류 손실과 제안된 평활화 손실(over-segmentation errors를 벌점으로 부과)의 조합을 사용하여 학습됩니다. 광범위한 평가를 통해 제안된 모델이 장거리 의존성을 포착하고 행동 구간을 인식하는 데 효과적이음을 보여주었습니다. 우리의 모델은 50Salads, Georgia Tech Egocentric Activities (GTEA), 그리고 Breakfast 데이터셋 등 세 가지 도전적인 데이터셋에서 최신 연구 결과를 달성했습니다.