DSANet: 비디오 레벨 표현 학습을 위한 동적 세그먼트 집약 네트워크

장거리 및 단거리 시간적 모델링은 영상 인식에서 서로 보완적이며 핵심적인 두 가지 측면이다. 기존의 대부분의 최신 기술들은 단거리 공간-시간 모델링에 주력하며, 여러 조각(스니펫) 수준의 예측을 평균화하여 최종 영상 수준의 예측을 도출한다. 그러나 이러한 접근 방식은 영상이 시간 차원을 따라 어떻게 진화하는지를 반영하는 공간-시간 특성을 영상 수준의 예측에 고려하지 못한다. 본 논문에서는 스니펫 간의 관계를 효과적으로 포착하기 위한 새로운 동적 세그먼트 집계(Dynamic Segment Aggregation, DSA) 모듈을 제안한다. 구체적으로, 인접한 스니펫 간의 장거리 시간적 정보를 적응적으로 집계하기 위해 컨볼루션 연산에 사용할 동적 커널을 생성하는 방식을 시도한다. DSA 모듈은 효율적인 플러그 앤 플레이 모듈로, 기존의 클립 기반 모델(TSM, I3D 등)과 쉽게 결합되어 최소한의 부담으로 강력한 장거리 모델링을 수행할 수 있다. 최종 영상 아키텍처는 DSANet으로 명명된다. 여러 영상 인식 벤치마크(Mini-Kinetics-200, Kinetics-400, Something-Something V1, ActivityNet)에서 광범위한 실험을 수행한 결과, 본 모듈의 우수성이 입증되었다. 제안한 DSA 모듈은 다양한 영상 인식 모델에 큰 성능 향상을 가져왔다. 예를 들어, I3D ResNet-50 모델에 DSA 모듈을 적용한 결과, Kinetics-400 데이터셋에서 정확도(top-1 accuracy)가 74.9%에서 78.2%로 향상되었다. 코드는 https://github.com/whwu95/DSANet 에 공개되어 있다.