12일 전
학습된 모션-외형 공주의 타입을 활용한 제로샷 비디오 객체 세그멘테이션
{Xiaoxing Zhang, Shuo Wang, Huchuan Lu, Jinqing Qi, Lu Zhang, Shu Yang}

초록
흐름 기반의 제로샷 비디오 객체 세분화에서 복잡한 시나리오에 적응하기 위해 외관 정보와 운동 정보를 효과적으로 상호작용시키는 것은 핵심적인 과제이다. 본 논문에서는 외관 정보와 운동 정보를 균형 있게 활용하기 위해 주의 집중형 다중 모달 협업 네트워크(Attentive Multi-Modality Collaboration Network, AMC-Net)를 제안한다. 구체적으로 AMC-Net은 다중 모달 특징에서 강력한 정보를 융합하고, 두 단계에 걸쳐 각 특징 간의 협업을 촉진한다. 먼저, 양방향 인코더 브랜치에 다중 모달 공동 주의 게이트(Multi-Modality Co-Attention Gate, MCG)를 제안한다. 이는 게이트 함수를 활용하여 다중 모달 특징의 기여도를 균형 있게 조절하고, 중복되거나 오해를 유도할 수 있는 정보를 억제하는 공동 주의 점수를 정의한다. 이후, 외관과 운동 신호 간의 공간-시간 대응 관계를 통합하여 전경 객체의 특징을 강조하기 위해 시각-운동 주의 메커니즘을 갖춘 운동 보정 모듈(Motion Correction Module, MCM)을 제안한다. 세 가지 공개된 도전적인 벤치마크 데이터셋에서 실시한 광범위한 실험을 통해, 본 연구에서 제안한 네트워크가 더 적은 데이터로 학습함에도 불구하고 기존 최첨단 방법들에 비해 우수한 성능을 보임을 입증하였다.