11일 전

피라미드 확장 더블러 컨볼루션 LSTM을 이용한 비디오 주목할 만한 객체 탐지

{Kin-Man Lam, Jianbing Shen, Wenguan Wang, Sanyuan Zhao, Hongmei Song}
피라미드 확장 더블러 컨볼루션 LSTM을 이용한 비디오 주목할 만한 객체 탐지
초록

본 논문은 새로운 순환 네트워크 아키텍처인 피라미드 확장 양방향 ConvLSTM(PDB-ConvLSTM)을 기반으로 한 빠른 비디오 주목 대상 탐지 모델을 제안한다. 먼저, 다중 스케일에서 공간적 특징을 동시에 추출하기 위해 피라미드 확장 컨볼루션(PDC) 모듈을 설계한다. 이러한 공간적 특징은 연결된 후 확장된 더 깊은 양방향 ConvLSTM(DB-ConvLSTM)에 입력되어 시공간 정보를 학습한다. 전방 및 후방 ConvLSTM 유닛은 두 계층에 배치되어 계단식으로 연결되어 양방향 스트림 간의 정보 흐름을 촉진하며, 더 깊은 특징 추출을 가능하게 한다. 또한, 다중 스케일 시공간 정보를 추출하기 위해 확장된 DB-ConvLSTM에 PDC 유사 구조를 도입하여 DB-ConvLSTM를 보강한다. 광범위한 실험 결과는 제안된 방법이 이전의 비디오 주목성 모델들을 크게 능가함을 보여주며, 단일 GPU에서 실시간 속도 20fps를 달성한다. 비디오 객체 세그멘테이션(비지도)을 예시 응용 사례로 삼았을 때, 제안된 모델(기반 CRF 후처리 포함)은 두 가지 대표적인 벤치마크에서 최첨단 성능을 달성하여, 그 뛰어난 성능과 높은 적용 가능성을 잘 입증한다.

피라미드 확장 더블러 컨볼루션 LSTM을 이용한 비디오 주목할 만한 객체 탐지 | 최신 연구 논문 | HyperAI초신경