17일 전

시간에 따라 적응하는 모델을 통한 효율적인 비디오 이해

Ziyuan Huang, Shiwei Zhang, Liang Pan, Zhiwu Qing, Yingya Zhang, Ziwei Liu, Marcelo H. Ang Jr
시간에 따라 적응하는 모델을 통한 효율적인 비디오 이해
초록

공간적 컨볼루션은 수많은 딥 뷰어 모델에서 널리 사용된다. 이는 기본적으로 시공간 불변성(spatio-temporal invariance)을 전제로 하며, 즉 서로 다른 프레임 내 모든 위치에 대해 공유된 가중치를 사용한다는 의미이다. 본 연구는 영상 이해를 위한 시간적 적응형 컨볼루션(Temporal-Adaptive Convolutions, TAdaConv)을 제안하며, 시간 차원을 따라 가중치를 적응적으로 조정하는 것이 영상 내 복잡한 시간 동역학을 모델링하는 효율적인 방법임을 보여준다. 구체적으로, TAdaConv는 각 프레임의 국소적 및 전역적 시간적 맥락에 따라 컨볼루션 가중치를 보정함으로써 공간적 컨볼루션에 시간적 모델링 능력을 부여한다. 기존의 시간 모델링 기법과 비교할 때, TAdaConv는 특징보다 컨볼루션 커널 위에서 작동하기 때문에 더 효율적이며, 이는 공간 해상도보다 한 차원 작아진 차원을 처리하기 때문이다. 또한 커널 보정은 모델의 표현 능력을 증가시킨다. 이러한 즉시 적용 가능한 TAdaConv 및 그 확장형인 TAdaConvV2를 기반으로, ConvNeXt와 Vision Transformer에 강력한 시간 모델링 능력을 부여하는 TAdaBlocks를 설계하였다. 실증 결과, TAdaConvNeXtV2와 TAdaFormer은 다양한 영상 이해 벤치마크에서 최신의 컨볼루션 기반 및 Transformer 기반 모델들과 경쟁력 있는 성능을 보였다. 본 연구의 코드 및 모델은 다음 링크에서 공개된다: https://github.com/alibaba-mmai-research/TAdaConv.

시간에 따라 적응하는 모델을 통한 효율적인 비디오 이해 | 최신 연구 논문 | HyperAI초신경