MS-TCN++: 동작 분할을 위한 다단계 시계열 컨볼루션 네트워크

짧은 자르기 처리된 영상 분류에서 딥러닝의 성공에 힘입어, 긴 자르기 처리되지 않은 영상에서 활동을 시간적으로 세그먼트하고 분류하는 작업에 대한 관심이 점점 더 커지고 있다. 현재 최고 수준의 활동 세그먼트화 기법들은 여러 층의 시간적 컨볼루션(time-convolution)과 시간적 풀링(time-pooling)을 활용한다. 이러한 접근법은 시간적 종속성을 효과적으로 포착할 수 있는 능력을 지니고 있지만, 예측 결과에 과도한 세그먼트화 오류가 발생하는 문제가 있다. 본 논문에서는 기존 방법의 한계를 극복하기 위해 다단계 아키텍처를 제안한다. 이 아키텍처는 첫 번째 단계에서 초기 예측을 생성하고, 이후 단계들에서 이를 정제한다. 각 단계에서는 수평적으로 확장된 시간적 컨볼루션(dilated temporal convolution) 층을 여러 층 쌓아, 적은 파라미터로 넓은 수용영역(receptive field)을 확보한다. 이 아키텍처는 이미 우수한 성능을 보이지만, 하위 층들은 여전히 작은 수용영역을 가진다는 한계가 있다. 이를 해결하기 위해, 큰 수용영역과 작은 수용영역을 동시에 포함하는 이중 확장(dual dilated) 레이어를 제안한다. 또한, 첫 번째 단계의 설계를 정제 단계와 분리하여 각 단계의 서로 다른 요구사항을 효과적으로 반영한다. 광범위한 실험을 통해 제안된 모델이 장거리 종속성( long-range dependencies)을 효과적으로 포착하고 활동 세그먼트를 정확히 인식함을 입증하였다. 제안된 모델은 50Salads, 조지아 테크 에고센트릭 활동(Georgia Tech Egocentric Activities, GTEA), 그리고 Breakfast 데이터셋 세 가지에서 최고 성능을 기록하며, 현재까지의 최고 수준의 결과를 달성하였다.