시간에 따라 적응하는 모델을 통한 효율적인 비디오 이해

공간적 컨볼루션은 수많은 딥 뷰어 모델에서 널리 사용된다. 이는 기본적으로 시공간 불변성(spatio-temporal invariance)을 전제로 하며, 즉 서로 다른 프레임 내 모든 위치에 대해 공유된 가중치를 사용한다는 의미이다. 본 연구는 영상 이해를 위한 시간적 적응형 컨볼루션(Temporal-Adaptive Convolutions, TAdaConv)을 제안하며, 시간 차원을 따라 가중치를 적응적으로 조정하는 것이 영상 내 복잡한 시간 동역학을 모델링하는 효율적인 방법임을 보여준다. 구체적으로, TAdaConv는 각 프레임의 국소적 및 전역적 시간적 맥락에 따라 컨볼루션 가중치를 보정함으로써 공간적 컨볼루션에 시간적 모델링 능력을 부여한다. 기존의 시간 모델링 기법과 비교할 때, TAdaConv는 특징보다 컨볼루션 커널 위에서 작동하기 때문에 더 효율적이며, 이는 공간 해상도보다 한 차원 작아진 차원을 처리하기 때문이다. 또한 커널 보정은 모델의 표현 능력을 증가시킨다. 이러한 즉시 적용 가능한 TAdaConv 및 그 확장형인 TAdaConvV2를 기반으로, ConvNeXt와 Vision Transformer에 강력한 시간 모델링 능력을 부여하는 TAdaBlocks를 설계하였다. 실증 결과, TAdaConvNeXtV2와 TAdaFormer은 다양한 영상 이해 벤치마크에서 최신의 컨볼루션 기반 및 Transformer 기반 모델들과 경쟁력 있는 성능을 보였다. 본 연구의 코드 및 모델은 다음 링크에서 공개된다: https://github.com/alibaba-mmai-research/TAdaConv.