17일 전

크로스오버 학습을 통한 빠른 온라인 비디오 인스턴스 세그멘테이션

Shusheng Yang, Yuxin Fang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu
크로스오버 학습을 통한 빠른 온라인 비디오 인스턴스 세그멘테이션
초록

프레임 간 시계적 시각적 맥락을 모델링하는 것은 영상 인스턴스 세그멘테이션(VIS) 및 기타 영상 이해 작업에서 핵심적인 요소입니다. 본 논문에서는 빠른 온라인 VIS 모델인 CrossVIS을 제안합니다. VIS에서 시계적 정보를 모델링하기 위해, 현재 프레임의 인스턴스 특징을 활용하여 다른 프레임에서 동일한 인스턴스를 픽셀 단위로 정확히 위치시키는 새로운 크로스오버 학습 방식을 제시합니다. 기존의 접근 방식과 달리, 크로스오버 학습은 특징 강화를 위한 추가 네트워크 파라미터를 요구하지 않습니다. 인스턴스 세그멘테이션 손실과 통합함으로써, 크로스오버 학습은 효율적인 프레임 간 인스턴스-픽셀 관계 학습을 가능하게 하며 추론 과정에서 비용 없이 성능 향상을 가져옵니다. 또한, 더 정확하고 안정적인 온라인 인스턴스 연결을 위해 글로벌 균형 인스턴스 임베딩 브랜치를 제안합니다. 제안한 방법의 성능을 검증하기 위해 YouTube-VIS-2019, OVIS, YouTube-VIS-2021의 세 가지 도전적인 VIS 벤치마크에서 광범위한 실험을 수행하였습니다. 현재까지의 연구 결과에 따르면, CrossVIS는 모든 온라인 VIS 방법 중 최고 수준의 성능을 달성하며 지연 시간과 정확도 사이에 우수한 균형을 보입니다. 코드는 향후 연구를 촉진하기 위해 공개될 예정입니다.

크로스오버 학습을 통한 빠른 온라인 비디오 인스턴스 세그멘테이션 | 최신 연구 논문 | HyperAI초신경