2달 전

RefineVIS: 시간 주의력을 활용한 비디오 인스턴스 분할

Andre Abrantes; Jiang Wang; Peng Chu; Quanzeng You; Zicheng Liu
RefineVIS: 시간 주의력을 활용한 비디오 인스턴스 분할
초록

우리는 비디오 인스턴스 분할(VIS)에서 프레임 간의 좋은 객체 연관성과 정확한 분할 마스크를 달성하기 위해 시퀀스 컨텍스트를 사용하여 표현을 반복적으로 개선하는 새로운 프레임워크인 RefineVIS를 소개합니다. RefineVIS는 오프더셀프 프레임 레벨 이미지 인스턴스 분할 모델 위에서 두 가지 별도의 표현을 학습합니다: 프레임 간 객체를 연관시키는 역할을 하는 연관성 표현과 정확한 분할 마스크를 생성하는 분할 표현입니다. 대조적 학습은 시간적으로 안정적인 연관성 표현을 학습하는 데 활용됩니다. 시간적 주의력 개선(TAR) 모듈은 시간적 관계와 새로운 시간적 대조 노이즈 제거 기술을 활용하여 차별화된 분할 표현을 학습합니다. 우리의 방법은 온라인 및 오프라인 추론 모두를 지원합니다. 이 방법은 YouTube-VIS 2019(64.4 AP), YouTube-VIS 2021(61.4 AP), 그리고 OVIS(46.1 AP) 데이터셋에서 최고 수준의 비디오 인스턴스 분할 정확도를 달성하였습니다. 시각화 결과는 TAR 모듈이 특히 고도로 가려진 객체와 같은 어려운 경우에 더 정확한 인스턴스 분할 마스크를 생성할 수 있음을 보여줍니다.