17일 전

TAda! 시계열 적응형 합성곱을 통한 비디오 이해

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Mingqian Tang, Ziwei Liu, Marcelo H. Ang Jr
TAda! 시계열 적응형 합성곱을 통한 비디오 이해
초록

공간적 컨볼루션은 수많은 딥 빈 영상 모델에서 널리 사용된다. 이는 기본적으로 시공간 불변성(spatio-temporal invariance)을 전제로 하며, 즉 서로 다른 프레임 내 모든 위치에 대해 공유된 가중치를 사용한다는 점이다. 본 연구는 영상 이해를 위한 시간적 적응형 컨볼루션(Temporal-Adaptive Convolutions, TAdaConv)을 제안한다. 이는 시간 차원에 따라 가중치를 적응적으로 보정하는 것이 영상 내 복잡한 시간적 동역학을 모델링하는 효율적인 방법임을 보여준다. 구체적으로 TAdaConv는 각 프레임의 국소적 및 전역적 시간적 맥락에 따라 컨볼루션 가중치를 보정함으로써, 공간적 컨볼루션에 시간적 모델링 능력을 부여한다. 기존의 시간적 모델링 기법과 비교했을 때, TAdaConv는 특징 데이터가 아닌 컨볼루션 커널 위에서 작동하기 때문에, 공간 해상도보다 한 차수 작아진 차원에서 연산이 이루어지므로 더욱 효율적이다. 더불어 커널 보정은 모델의 표현 능력을 증가시킨다. 본 연구는 ResNet과 ConvNeXt의 2D 컨볼루션을 TAdaConv로 대체하여 TAda2D 및 TAdaConvNeXt 네트워크를 구축하였으며, 다양한 영상 동작 인식 및 위치 추정 벤치마크에서 최신 기술과 비견되거나 그 이상의 성능을 달성하였다. 또한 TAdaConv는 계산량 증가가 거의 없이 즉시 적용 가능한 모듈로서, 기존의 다수 영상 모델에 효과적으로 통합되어 뚜렷한 성능 향상을 이끌어낼 수 있음을 실험을 통해 입증하였다.

TAda! 시계열 적응형 합성곱을 통한 비디오 이해 | 최신 연구 논문 | HyperAI초신경