2달 전

계층적 전파에서 비디오 객체 분할을 위한 특성 분리

Zongxin Yang; Yi Yang
계층적 전파에서 비디오 객체 분할을 위한 특성 분리
초록

본 논문은 반지도형 비디오 객체 분할(VOS)을 위한 보다 효과적인 계층적 전파 방법의 개발에 초점을 맞추고 있습니다. 최근 개발된 '트랜스포머를 이용한 객체 연관(AOT)' 접근법은 VOS에 계층적 전파를 도입하여 유망한 결과를 보여주었습니다. 이 계층적 전파는 과거 프레임에서 현재 프레임으로 정보를 점진적으로 전달하고, 객체 무관 특징을 객체 특이적 특징으로 변환할 수 있습니다. 그러나 객체 특이적 정보의 증가는 깊은 전파 층에서 객체 무관 시각 정보의 손실을 불가피하게 초래합니다. 이러한 문제를 해결하고 시각 임베딩 학습을 더욱 용이하게 하기 위해, 본 논문에서는 '계층적 전파에서 특징 분리(DeAOT)' 접근법을 제안합니다. 첫째, DeAOT는 두 개의 독립적인 브랜치에서 처리함으로써 객체 무관 임베딩과 객체 특이적 임베딩의 계층적 전파를 분리합니다. 둘째, 이중 브랜치 전파로 인한 추가적인 계산량을 보완하기 위해, 싱글 헤드 어텐션으로 세심히 설계된 효율적인 모듈인 게이티드 전파 모듈(Gated Propagation Module)을 제안합니다. 광범위한 실험 결과, DeAOT는 정확성과 효율성 면에서 AOT보다 크게 우수함을 입증하였습니다. YouTube-VOS에서 DeAOT는 22.4fps에서 86.0%, 53.4fps에서 82.0%의 성능을 달성하였습니다. 테스트 시간 증강 없이 네 가지 벤치마크(YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), VOT 2020 (0.622))에서 새로운 최고 성능을 기록하였습니다.프로젝트 페이지: https://github.com/z-x-yang/AOT

계층적 전파에서 비디오 객체 분할을 위한 특성 분리 | 최신 연구 논문 | HyperAI초신경