2달 전

영상 속 위장 객체 검출을 위한 암시적 운동 처리

Cheng, Xuelian ; Xiong, Huan ; Fan, Deng-Ping ; Zhong, Yiran ; Harandi, Mehrtash ; Drummond, Tom ; Ge, Zongyuan
영상 속 위장 객체 검출을 위한 암시적 운동 처리
초록

우리는 비디오에서 위장 객체를 감지하기 위해 단기 동역학과 장기 시간 일관성을 모두 활용할 수 있는 새로운 비디오 위장 객체 검출(VCOD) 프레임워크를 제안합니다. 위장 객체의 핵심 특성은 배경과 유사한 패턴을 보이는 경우가 많아 정지 이미지에서는 식별이 어려운 것입니다. 따라서, 위장 객체가 움직일 때 눈에 띄게 되므로 비디오에서 시간적 동역학을 효과적으로 처리하는 것이 VCOD 작업의 핵심이 됩니다. 그러나 현재의 VCOD 방법들은 대부분 호모그래피(homography)나 광학 흐름(optical flows)을 사용하여 움직임을 표현하는데, 이 경우 움직임 추정 오류와 분할 오류로 인해 감지 오류가 누적될 가능성이 있습니다. 반면, 우리의 방법은 단일 최적화 프레임워크 내에서 움직임 추정과 객체 분할을 통합합니다. 구체적으로, 우리는 인접 프레임 간의 움직임을 암시적으로 포착하기 위해 밀집 상관량(dense correlation volume)을 구성하고, 최종 분할 지도를 이용하여 암시적인 움직임 추정과 분할을 동시에 최적화합니다. 또한, 비디오 시퀀스 내에서 시간 일관성을 강제하기 위해 공간-시간 변환기(spatio-temporal transformer)를 공동으로 활용하여 단기 예측을 개선합니다. VCOD 벤치마크에서 수행된 광범위한 실험들은 우리 접근 방식의 아키텍처적 효율성을 입증하였습니다. 또한, 픽셀 수준으로 수작업으로 작성된 지상 진리 마스크(ground-truth masks)를 포함하는 대규모 VCOD 데이터셋인 MoCA-Mask를 제공하며, 이전 방법들과 함께 포괄적인 VCOD 벤치마크를 구성하여 이 방향의 연구를 촉진하고자 합니다.데이터셋 링크: https://xueliancheng.github.io/SLT-Net-project.

영상 속 위장 객체 검출을 위한 암시적 운동 처리 | 최신 연구 논문 | HyperAI초신경