
초록
비디오 내 시간적 관계 모델링은 인간의 행동 이해, 예를 들어 행동 인식 및 행동 분할과 같은 과제에서 필수적이다. 그래프 컨볼루션 네트워크(GCN)는 다양한 작업에서 관계 추론 측면에서 희망적인 성과를 보여왔지만, 긴 비디오 시퀀스에 GCN을 효과적으로 적용하는 것은 여전히 도전 과제이다. 주요 원인은 비디오 프레임(즉, 노드)의 수가 많아지면서 GCN이 비디오 내 시간적 관계를 포착하고 모델링하기 어려워지기 때문이다. 이 문제를 해결하기 위해 본 논문에서는 다양한 시간 간격에서 비디오 프레임 간의 시간적 관계와 의존성을 모델링하기 위해 설계된 효과적인 GCN 모듈인 '확장된 시간 그래프 추론 모듈(Dilated Temporal Graph Reasoning Module, DTGRM)'을 제안한다. 특히, 서로 다른 시점의 프레임을 노드로 하여 다수의 수준의 확장된 시간 그래프를 구성함으로써 시간적 관계를 포착하고 모델링한다. 더불어 제안된 모델의 시간적 추론 능력을 강화하기 위해, 확장된 시간 그래프 추론 모듈이 비디오 내 잘못된 시간적 관계를 탐지하고 수정하도록 유도하는 보조 자기지도 학습 태스크를 제안한다. 제안한 DTGRM 모델은 50Salads, 조지아 테크 에고센트릭 활동(GTEA), 그리고 Breakfast 데이터셋과 같은 세 가지 도전적인 데이터셋에서 최신 기술(SOTA) 행동 분할 모델들을 능가하는 성능을 보였다. 코드는 https://github.com/redwang/DTGRM 에서 공개되어 있다.