
본 논문에서는 다양한 모델의 시계열 동작 분할 결과를 계층적으로 주어진 비디오의 전반적인 맥락을 이해함으로써 개선할 수 있는 계층적 동작 분할 보정기(Hierarchical Action Segmentation Refiner, HASR)를 제안한다. 동작 분할을 위한 백본 모델이 주어진 비디오를 어떻게 분할할 수 있는지 추정할 때, 우리의 모델은 프레임 단위 특징을 기반으로 세그먼트 단위 표현을 추출하고, 세그먼트 단위 표현을 기반으로 비디오 단위 표현을 추출한다. 이러한 계층적 표현을 바탕으로, 모델은 전체 비디오의 전반적인 맥락을 참조하여 맥락에 어울지 않는 세그먼트 레이블이 어떻게 보정되어야 하는지 예측할 수 있다. 제안한 HASR는 다양한 동작 분할 모델(MS-TCN, SSTDA, ASRF)에 쉽게 통합될 수 있으며, 세 가지 도전적인 데이터셋(GTEA, 50Salads, Breakfast)을 기반으로 최첨단 모델의 성능을 향상시킬 수 있다. 예를 들어, 50Salads 데이터셋에서 MS-TCN 기반 모델의 세그먼트 에디트 스코어는 67.9%에서 77.4%로, SSTDA 기반 모델은 75.8%에서 77.3%로, ASRF 기반 모델은 79.3%에서 81.0%로 향상된다. 또한, HASR은 학습 시 참조되지 않은 새로운 백본 모델의 분할 결과도 개선할 수 있다. 이러한 일반화 성능은 HASR이 기존 시계열 동작 분할 접근법을 강화하는 효과적인 도구가 될 수 있음을 보여준다. 본 논문의 코드는 https://github.com/cotton-ahn/HASR_iccv2021 에 공개되어 있다.