
초록
비디오에서 장기적 문맥을 모델링하는 것은 시계열 행동 분할과 같은 정교한 작업에 있어 매우 중요하다. 아직 해결되지 않은 흥미로운 질문은 최적의 성능을 얻기 위해 얼마나 긴 장기 시계적 문맥이 필요한가이다. 트랜스포머는 비디오의 장기적 시계적 문맥을 모델링할 수 있지만, 긴 비디오에 대해서는 계산 비용이 과도해져 실용성이 떨어진다. 최근 시계열 행동 분할 작업에서는 지역적 시계적 창 내에서만 자기 주목(self-attention)을 계산하는 시간적 컨볼루션 네트워크와 결합한 접근법이 제안되었다. 이러한 방법들은 우수한 성능을 보였지만, 비디오의 전체 문맥을 포착하지 못한다는 한계로 인해 성능이 제한된다. 본 연구에서는 장기적 시계적 문맥이 시계열 행동 분할에 얼마나 필요한지를 규명하기 위해, 희소 주목(sparse attention)을 활용하여 비디오의 전체 문맥을 포착하는 트랜스포머 기반 모델을 제안한다. 우리는 50Salads, Breakfast, Assembly101 세 가지 시계열 행동 분할 데이터셋에서 현재 최고 성능 모델과 본 모델을 비교하였다. 실험 결과, 시계열 행동 분할에서 최고의 성능을 달성하기 위해서는 비디오의 전체 문맥을 모델링하는 것이 필수적임을 확인하였다.