2달 전
비디오 객체 분할을 위한 풀다플렉스 전략
Ge-Peng Ji; Deng-Ping Fan; Keren Fu; Zhe Wu; Jianbing Shen; Ling Shao

초록
이전 비디오 객체 분할 접근 방식은 주로 외관과 움직임 사이의 단순한 해결책에 초점을 맞추어, 이 두 신호 간 및 내부에서의 특성 협력 효율성을 제한하였습니다. 본 연구에서는 이러한 문제를 해결하기 위해, 융합 및 디코딩 단계에서 크로스 모달 특성을 활용하면서 움직임과 외관 간의 더 나은 상호 제약 체계를 고려하는 새로운이고 효율적인 풀 듀플렉스 전략 네트워크(FSNet)를 연구합니다. 구체적으로, 임베딩 하위 공간 간 양방향 메시지 전파를 달성하기 위해 관계 크로스 어텐션 모듈(RCAM)을 도입하였습니다. 또한 모델의 견고성을 개선하고 시공간 임베딩으로부터 일관되지 않은 특성을 업데이트하기 위해 RCAM 후에 양방향 정화 모듈(BPM)을 채택하였습니다. 다섯 가지 인기 있는 벤치마크에서 수행된 광범위한 실험 결과, 우리의 FSNet은 다양한 도전적인 상황(예: 움직임 블러, 가림)에 견고하며, 비디오 객체 분할 및 비디오 주요 객체 검출 작업에서 기존 최신 기술들 대비 우수한 성능을 보였습니다. 본 프로젝트는 공개적으로 이용 가능하며, 다음 링크에서 확인하실 수 있습니다: https://dpfan.net/FSNet.