11일 전

비디오 객체 분할을 위한 전달적 접근법

Yizhuo Zhang, Zhirong Wu, Houwen Peng, Stephen Lin
비디오 객체 분할을 위한 전달적 접근법
초록

반감독형 비디오 객체 분할은 첫 번째 프레임에서 주어진 마스크를 바탕으로 비디오 시퀀스 내에서 목표 객체를 분리하는 것을 목표로 한다. 현재 주류를 이루는 대부분의 방법들은 광학 흐름이나 인스턴스 세그멘테이션과 같은 다른 도메인에서 학습된 추가 모듈의 정보를 활용하지만, 이러한 접근은 다른 방법들과 공정한 비교를 어렵게 만든다. 이 문제를 해결하기 위해, 추가 모듈, 데이터셋, 또는 특별한 아키텍처 설계 없이도 작동하는 간단하면서도 강력한 전이적(Transductive) 방법을 제안한다. 본 방법은 임베딩 공간 내에서 특징 유사도를 기반으로 픽셀 레이블을 전파하는 라벨 전파(Labeled Propagation) 방식을 채택한다. 기존의 전파 방법과 달리, 본 방법은 장기적인 객체 외형을 고려하여 시간적 정보를 종합적으로 확산시키는 특징을 지닌다. 또한 본 방법은 추가적인 계산 부담이 거의 없으며, 약 37 fps의 빠른 속도로 실행 가능하다. 단일 모델로서 일반적인 ResNet50 백본을 사용하여 DAVIS 2017 검증 세트에서 총점 72.3, 테스트 세트에서 63.1의 성능을 달성하였다. 본 연구에서 제안하는 이 간단하면서도 높은 성능과 효율성을 갖춘 방법은 향후 연구를 촉진하는 견고한 베이스라인으로 활용될 수 있다. 코드와 모델은 \url{https://github.com/microsoft/transductive-vos.pytorch}에서 제공된다.

비디오 객체 분할을 위한 전달적 접근법 | 최신 연구 논문 | HyperAI초신경