17일 전

NSNet: 효율적인 비디오 인식을 위한 비잔존성 억제 샘플러

Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, Wanli Ouyang
NSNet: 효율적인 비디오 인식을 위한 비잔존성 억제 샘플러
초록

저전력 환경에서 인공지능 시스템이 정확한 비디오 인식을 달성하는 것은 여전히 큰 도전 과제이다. 적응형 추론 기반의 효율적인 비디오 인식 방법은 비디오를 사전에 분석하여 주목할 만한 부분에 집중함으로써 계산 비용을 줄이는 데 초점을 맞추고 있다. 기존의 대부분의 연구는 비디오 분류를 목표로 하는 복잡한 네트워크 학습에 주력해 왔다. 이들 대부분의 방법은 모든 프레임을 긍정 샘플로 간주하며, 긍정 샘플(주목할 만한 프레임)과 부정 샘플(비주목 프레임) 간의 구별 능력에 대한 감독 신호에 대한 고려가 거의 부족하다. 이러한 격차를 메우기 위해 본 논문에서는 비주목 프레임의 반응을 효과적으로 억제하는 새로운 비주목 억제 네트워크(Nonsaliency Suppression Network, NSNet)를 제안한다. 구체적으로, 프레임 수준에서는 주목할 만한 프레임과 비주목 프레임을 구분할 수 있는 효과적인 의사 레이블(pseudo labels)을 생성하여 프레임의 주목도 학습을 안내한다. 비디오 수준에서는 주목 프레임과 비주목 프레임의 표현에 대해 이중 비디오 수준 감독 아래에서 시간적 주의 메커니즘(temporal attention module)을 학습한다. 두 수준에서 도출된 주목도 측정 값을 통합함으로써 다중 그레인(dual-granularity) 보완 정보를 효과적으로 활용한다. 네 가지 유명한 벤치마크에서 실시한 광범위한 실험 결과는 NSNet이 최고 수준의 정확도-효율성 균형을 달성함과 동시에 기존 최고 성능 방법들에 비해 실질적인 추론 속도가 2.4~4.3배 빠르다는 것을 입증한다. 본 연구의 프로젝트 페이지는 https://lawrencexia2008.github.io/projects/nsnet 에서 확인할 수 있다.

NSNet: 효율적인 비디오 인식을 위한 비잔존성 억제 샘플러 | 최신 연구 논문 | HyperAI초신경