
컨벌루션 신경망(CNN)은 시각 인식 문제에 있어 강력한 모델 클래스로 인정되어 왔습니다. 그러나 이러한 네트워크의 컨벌루션 필터는 대역 의존성을 무시하고 국소 연산을 수행합니다. 이와 같은 단점은 특히 비디오 인식에서 더욱 심각해지는데, 비디오는 복잡한 시간적 변동을 가진 정보 집약적인 미디어이기 때문입니다. 본 논문에서는 국소 및 전역 확산(LGD)을 통해 시공간 표현 학습을 향상시키는 새로운 프레임워크를 제안합니다. 구체적으로, 국소와 전역 표현을 병렬로 학습하는 새로운 신경망 아키텍처를 구성하였습니다. 이 아키텍처는 각 블록이 두 표현 간의 확산을 모델링하여 국소와 전역 특징을 업데이트하는 LGD 블록으로 구성됩니다. 확산은 국소적 정보와 전체적 정보라는 두 가지 측면을 효과적으로 상호작용시켜, 더 강력한 표현 학습 방법을 제공합니다. 또한, 비디오 인식을 위해 두 측면에서 얻은 표현들을 결합하는 커널화된 분류기를 도입하였습니다. 우리의 LGD 네트워크는 대규모 Kinetics-400 및 Kinetics-600 비디오 분류 데이터셋에서 최고 경쟁자들보다 각각 3.5%와 0.7%의 명확한 개선을 보였습니다. 우리는 사전 훈련된 LGD 네트워크가 생성한 전역 및 국소 표현들의 일반화 능력을 비디오 동작 인식과 시공간 동작 검출 작업에 대한 네 가지 다른 벤치마크에서 평가하였습니다. 이러한 벤치마크에서 여러 최신 기술들보다 우수한 성능이 보고되었습니다. 코드는 다음 주소에서 이용 가능합니다: https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.