
복잡한 시공간 동적 공간에서 차별화된 표현을 학습하는 것은 비디오 인식에 필수적입니다. 이러한 스타일화된 시공간 계산 단위 위에서, 축 간 컨텍스트를 사용하여 학습된 특성을 더욱 세밀하게 정제하는 것이 이 목표를 달성하기 위해 유망하다는 것이 입증되었습니다. 그러나, 이전 연구들은 일반적으로 전체 특성 채널을 교정하는 데 단일 종류의 컨텍스트를 활용하는데 초점을 맞추었으며 다양한 비디오 활동을 처리하기에는 어려움이 있었습니다. 이러한 문제는 축 간 컨텍스트를 사용하여 쌍별 시공간 주의력을 통해 특성 반응을 재계산함으로써 해결할 수 있지만, 이는 많은 계산량을 필요로 합니다. 본 논문에서는 특성 채널을 여러 그룹으로 분해하고 서로 다른 축 간 컨텍스트를 사용하여 병렬로 각각의 그룹을 개별적으로 정제하는 효율적인 특성 정제 방법을 제안합니다. 우리는 이를 경량화된 특성 교정이라고 하며, Group Contextualization (GC)라고 지칭합니다.특히, ECal-G/S/T/L와 같은 효율적인 요소별 교정기들을 설계하였습니다. 여기서 그들의 축 간 컨텍스트는 다른 축들로부터 전역적으로 또는 국소적으로 집계된 정보 동학입니다. GC 모듈은 오프더shelf 비디오 네트워크의 각 잔차층에 밀집적으로 연결될 수 있습니다. 거의 추가적인 계산 부담 없이, GC를 다양한 네트워크에 적용할 때 일관된 성능 향상이 관찰되었습니다. 네 가지不同类型的上下文并行嵌入特征时,预期所学表示将对各种活动类型更具鲁棒性。在具有丰富时间变化的视频上,实证表明GC可以将2D-CNN(例如TSN和TSM)的性能提升到与最先进视频网络相当的水平。由于上述部分出现了中文,我将其重新翻译为韩文如下:네 가지 종류의 컨텍스트를 병렬로 특징에 내장함으로써, 학습된 표현은 다양한 활동 유형에 대해 더욱 견고해질 것으로 예상됩니다. 시간 변화가 풍부한 비디오에서 경험적으로 GC는 2D-CNN(예: TSN 및 TSM)의 성능을 최신 비디오 네트워크와 비교 가능한 수준으로 향상시키는 것으로 나타났습니다.코드는 https://github.com/haoyanbin918/Group-Contextualization 에서 제공됩니다.