TAda! 시계열 적응형 합성곱을 통한 비디오 이해

공간적 컨볼루션은 수많은 딥 빈 영상 모델에서 널리 사용된다. 이는 기본적으로 시공간 불변성(spatio-temporal invariance)을 전제로 하며, 즉 서로 다른 프레임 내 모든 위치에 대해 공유된 가중치를 사용한다는 점이다. 본 연구는 영상 이해를 위한 시간적 적응형 컨볼루션(Temporal-Adaptive Convolutions, TAdaConv)을 제안한다. 이는 시간 차원에 따라 가중치를 적응적으로 보정하는 것이 영상 내 복잡한 시간적 동역학을 모델링하는 효율적인 방법임을 보여준다. 구체적으로 TAdaConv는 각 프레임의 국소적 및 전역적 시간적 맥락에 따라 컨볼루션 가중치를 보정함으로써, 공간적 컨볼루션에 시간적 모델링 능력을 부여한다. 기존의 시간적 모델링 기법과 비교했을 때, TAdaConv는 특징 데이터가 아닌 컨볼루션 커널 위에서 작동하기 때문에, 공간 해상도보다 한 차수 작아진 차원에서 연산이 이루어지므로 더욱 효율적이다. 더불어 커널 보정은 모델의 표현 능력을 증가시킨다. 본 연구는 ResNet과 ConvNeXt의 2D 컨볼루션을 TAdaConv로 대체하여 TAda2D 및 TAdaConvNeXt 네트워크를 구축하였으며, 다양한 영상 동작 인식 및 위치 추정 벤치마크에서 최신 기술과 비견되거나 그 이상의 성능을 달성하였다. 또한 TAdaConv는 계산량 증가가 거의 없이 즉시 적용 가능한 모듈로서, 기존의 다수 영상 모델에 효과적으로 통합되어 뚜렷한 성능 향상을 이끌어낼 수 있음을 실험을 통해 입증하였다.