17일 전
최대화 및 복원: 확장 전달과 시계열 재구성을 통한 행동 세그멘테이션
{Sungho Jo, Sejoon Huh, Daekyum Kim, Junyong Park}

초록
행동 분할은 비디오를 서로 다른 행동 단위로 분할하는 작업을 의미한다. 최근의 연구는 긴 비트리밍 비디오에서 장거리 의존성 문제를 다루는 데 집중하고 있으나, 모델 복잡도 증가로 인한 과도한 분할(over-segmentation) 및 성능 포화 현상에 여전히 직면해 있다. 본 논문은 먼저 모델의 프레임 단위 분류 정확도를 극대화한 후, 과도한 분할 오류를 줄이는 분할-정복 전략을 통해 이러한 문제를 해결한다. 이 전략은 확장 전달 및 재구성 네트워크(Dilation Passing and Reconstruction Network)를 통해 구현되며, 이는 확장된 정보 전파를 통해 정확도를 높이는 확장 전달 네트워크(Dilation Passing Network)와, 확장 전달 네트워크의 출력 특징을 시계열적으로 인코딩하고 디코딩함으로써 과도한 분할 오류를 감소시키는 시계열 재구성 네트워크(Temporal Reconstruction Network)로 구성된다. 또한, 과도한 분할을 추가로 줄이기 위해 가중치를 적용한 시계열 평균 제곱 오차 손실(Weighted Temporal Mean Squared Error Loss)을 제안한다. 50Salads, GTEA, Breakfast 등의 데이터셋에서 수행한 평가를 통해, 제안하는 모델이 기존 최첨단 모델들과 비교하여 유의미한 성능 향상을 보였음을 확인하였다.