18일 전
동적 컨텍스트 민감 필터링 네트워크를 통한 영상 주목 객체 탐지
{Zhongxuan Luo, Huchuan Lu, Jingjing Li, Wei Ji, Shunyu Yao, Yongri Piao, Yifei Wang, Jie Liu, Miao Zhang}

초록
프레임 간 동적 특성의 포착 능력은 영상 주목 객체 탐지(VSOD)의 발전에 있어 핵심적인 요소였다. 많은 연구들이 이 분야에서 뛰어난 성과를 거두었지만, 여전히 그 동적 특성에 대한 심층적인 이해가 필요하다. 본 연구에서는 다음과 같은 질문에 답하고자 한다: 모델은 실제 환경에서의 미세한 차이를 인지하면서 어떻게 동적 변화에 스스로 적응할 수 있는가? 시간이 지남에 따라 시간적 동적 특성이 공간 정보에 어떻게 효과적으로 통합될 수 있는가? 이를 해결하기 위해, 동적 컨텍스트 민감 필터링 모듈(DCFM)과 효과적인 양방향 동적 융합 전략을 갖춘 동적 컨텍스트 민감 필터링 네트워크(DCFNet)를 제안한다. 제안하는 DCFM은 연속 프레임 간의 위치 관련성(affinity)을 추출함으로써 동적 필터 생성에 새로운 통찰을 제공한다. 또한, 양방향 동적 융합 전략은 공간 정보와 시간 정보 간의 상호작용을 동적으로 촉진한다. 실험 결과, 제안한 방법은 대부분의 VSOD 데이터셋에서 최첨단 성능을 달성하면서도 실시간 속도 28 fps를 유지함을 입증하였다. 소스 코드는 공개적으로 제공되며, 다음 주소에서 확인 가능하다: https://github.com/OIPLab-DUT/DCFNet.