12일 전

비디오 내 동작 세그멘테이션을 위한 시간적 변형 잔차 네트워크

{Peng Lei, Sinisa Todorovic}
비디오 내 동작 세그멘테이션을 위한 시간적 변형 잔차 네트워크
초록

이 논문은 영상 내 인간 행동의 시계열 분할( temporal segmentation )에 관한 연구이다. 우리는 영상 프레임의 레이블링을 위해 다중 시계열 스케일에서 영상 간격을 분석할 수 있도록 설계된 새로운 모델인 시계열 변형 가능 잔차 네트워크(Temporal Deformable Residual Network, TDRN)를 제안한다. TDRN은 두 개의 병렬 시계열 스트림을 계산한다: i) 전체 시계열 해상도에서 영상 정보를 분석하는 잔차 스트림, 그리고 ii) 다양한 스케일에서 장거리 영상 정보를 포집하는 풀링/언풀링 스트림이다. 첫 번째 스트림은 국소적이고 세밀한 스케일의 행동 분할을 촉진하며, 두 번째 스트림은 다중 스케일의 맥락 정보를 활용하여 프레임 분류의 정확도를 향상시킨다. 이러한 두 스트림은 변형 가능 합성곱( deformable convolutions )을 갖는 시계열 잔차 모듈들을 통해 계산되며, 전체 영상 해상도에서 시계열 잔차를 통해 융합된다. 던디 대학교의 50 Salads, 조지아 테크의 이고세트릭 활동(Egocentric Activities), 그리고 JHU-ISI 제스처 및 스킬 평가 워킹 세트(JHU-ISI Gesture and Skill Assessment Working Set) 데이터셋에 대한 평가 결과, TDRN은 프레임 단위 분할 정확도, 세그멘탈 편집 점수(segmental edit score), 세그멘탈 오버랩 F1 점수에서 기존 최고 성능 모델들을 모두 능가함을 입증하였다.

비디오 내 동작 세그멘테이션을 위한 시간적 변형 잔차 네트워크 | 최신 연구 논문 | HyperAI초신경