11일 전

스펙트럼 가이드 다중 육도 참조 비디오 객체 세그멘테이션

Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
스펙트럼 가이드 다중 육도 참조 비디오 객체 세그멘테이션
초록

현재의 참조 영상 객체 분할(R-VOS) 기술은 인코딩된(저해상도) 비전-언어 특징에서 조건부 커널을 추출하여 디코딩된 고해상도 특징을 분할한다. 우리는 이러한 방식이 의미 있는 특징 왜곡(feature drift)을 초래함을 발견하였으며, 이는 전방 계산 과정에서 분할 커널이 이를 제대로 인지하지 못하게 한다. 이는 분할 커널의 성능에 부정적인 영향을 미친다. 이러한 왜곡 문제를 해결하기 위해, 우리는 인코딩된 특징에서 직접 분할을 수행하고 시각적 세부 정보를 활용하여 마스크를 추가로 최적화하는 스펙트럼 안내 다중 격차(Spectrum-guided Multi-granularity, SgMg) 접근법을 제안한다. 또한, 다중 모달 표현을 효과적으로 구현하기 위해 프레임 내 전역 상호작용을 스펙트럼 도메인에서 수행하는 스펙트럼 안내 크로스모달 융합(Spectrum-guided Cross-modal Fusion, SCF)을 제안한다. 마지막으로, SgMg를 확장하여 다객체 R-VOS를 수행할 수 있도록 하였으며, 이는 동영상 내 여러 개의 참조 객체를 동시에 분할할 수 있는 새로운 패러다임을 제공한다. 이는 R-VOS의 속도를 향상시킬 뿐만 아니라 실제 적용 가능성도 높인다. 광범위한 실험 결과, SgMg는 네 가지 영상 벤치마크 데이터셋에서 최고 성능을 기록하였으며, Ref-YouTube-VOS에서 가장 가까운 경쟁 기술보다 2.8% 포인트 높은 성능을 달성하였다. 확장된 SgMg는 다객체 R-VOS를 가능하게 하며, 성능은 유지하면서 약 3배 빠른 속도로 작동한다. 코드는 https://github.com/bo-miao/SgMg 에서 제공된다.

스펙트럼 가이드 다중 육도 참조 비디오 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경