17일 전

다중 스케일 운동 인지 모듈을 활용한 비디오 동작 인식

{Yu-Chee Tseng, Huai-Wei Peng}
초록

광학 흐름(optical flow) 계산에 소요되는 긴 시간으로 인해 최근 연구들은 움직임 특징을 추출하기 위한 대안으로 상관 연산(correlation operation)을 제안해왔다. 상관 연산을 사용할 경우 FLOPs가 거의 증가하지 않으면서도 성능 향상이 두드러지지만, 컨볼루션 연산에 비해 FLOP당 지연(latency)이 훨씬 크며, 더 큰 탐색 패치(searching patch)를 적용할수록 눈에 띄게 지연이 증가한다. 또한 상관 연산에서 탐색 패치를 축소하는 것은 더 큰 이동을 포착할 수 없기 때문에 성능 저하를 피할 수 없다. 본 논문에서는 효율적이고 낮은 지연을 갖는 다중 해상도 움직임 인지(Multi-Scale Motion-Aware, MSMA) 모듈을 제안한다. 이 모듈은 다양한 해상도에서 작은 탐색 패치를 사용함으로써 큰 이동을 효율적으로 추출할 수 있도록 설계되었으며, 다양한 CNN 백본에 쉽게 통합될 수 있고, 다양한 백본에 대해 우수한 일반화 성능을 보인다. TSM ResNet-50에 MSMA 모듈을 적용했을 때 NVIDIA Tesla V100 GPU에서 약 17.6%의 추가 지연만을 유발하지만, SomethingSomething V1 및 V2, Diving-48에서 최신 기준(SOTA) 성능을 달성한다.

다중 스케일 운동 인지 모듈을 활용한 비디오 동작 인식 | 최신 연구 논문 | HyperAI초신경