2달 전

강화된 시공간 정렬 네트워크를 이용한 비디오 주요성 예측

Jin Chen; Huihui Song; Kaihua Zhang; Bo Liu; Qingshan Liu
강화된 시공간 정렬 네트워크를 이용한 비디오 주요성 예측
초록

다양한 프레임 간의 다양한 움직임으로 인해 정확한 비디오 주요성 예측(VSP, Video Saliency Prediction)을 위한 효과적인 시공간 표현을 학습하는 것이 매우 어려워집니다. 이 문제를 해결하기 위해, 우리는 VSP에 특화된 효과적인 시공간 특징 정렬 네트워크를 개발하였습니다. 이 네트워크는 주로 두 가지 핵심 하위 네트워크로 구성되며, 다중 스케일 변형 합성곱 정렬 네트워크(MDAN, Multi-Scale Deformable Convolutional Alignment Network)와 양방향 합성곱 장단기 기억(Bi-ConvLSTM, Bidirectional Convolutional Long Short-Term Memory) 네트워크가 포함됩니다.MDAN은 저해상도 특징부터 고해상도 특징까지 단계적으로 정렬하여 참조 프레임에 인접 프레임의 특징을 조정하는데 사용됩니다. 이를 통해 다양한 움직임을 잘 처리할 수 있습니다. 구체적으로, MDAN은 피라미드 형태의 특징 계층 구조를 가지고 있으며, 먼저 변형 합성곱(Dconv, Deformable Convolution)을 활용하여 프레임 간의 저해상도 특징을 정렬하고, 그 다음으로 정렬된 특징들을 모아서 고해상도 특징을 정렬합니다. 이렇게 하여 상위에서 하위로 점진적으로 특징을 강화합니다. MDAN의 출력은 이후 Bi-ConvLSTM으로 전달되어 더욱 강화되며, Bi-ConvLSTM은 복잡한 장면 변화 하에서 주요성 방향 이동 예측을 효과적으로 안내하기 위해 전방향과 후방향 시간 경로에서 유용한 장시간 시계열 정보를 포착합니다.마지막으로, 강화된 특징들은 디코딩되어 예측된 주요성 맵이 생성됩니다. 제안된 모델은 복잡한 후처리 없이 엔드투엔드(end-to-end) 방식으로 훈련되었습니다. 4개의 VSP 벤치마크 데이터셋에 대한 광범위한 평가 결과는 제안된 방법이 최신 기법들과 비교하여 우수한 성능을 보인다는 것을 입증하였습니다. 소스 코드와 모든 결과는 공개될 예정입니다.

강화된 시공간 정렬 네트워크를 이용한 비디오 주요성 예측 | 최신 연구 논문 | HyperAI초신경