17일 전

MinVIS: 비디오 기반 훈련 없이도 가능한 최소한의 비디오 인스턴스 세그멘테이션 프레임워크

De-An Huang, Zhiding Yu, Anima Anandkumar
MinVIS: 비디오 기반 훈련 없이도 가능한 최소한의 비디오 인스턴스 세그멘테이션 프레임워크
초록

우리는 비디오 기반 아키텍처나 학습 절차 없이도 최첨단 비디오 인스턴스 세그멘테이션(VIS) 성능을 달성하는 최소한의 비디오 인스턴스 세그멘테이션(Vis) 프레임워크인 MinVIS를 제안한다. MinVIS는 쿼리 기반 이미지 인스턴스 세그멘테이션 모델만을 훈련시키는 방식으로, 도전적인 Occluded VIS 데이터셋에서 이전 최고 성능보다 10% 이상의 AP 성능을 초과 달성한다. MinVIS는 훈련 비디오의 프레임을 독립적인 이미지로 취급하기 때문에, 어떠한 수정 없이도 레이블링된 프레임을 극도로 하위 샘플링할 수 있다. 단지 1%의 레이블링된 프레임만을 사용해도, MinVIS는 YouTube-VIS 2019/2021에서 완전 지도 학습 기반 최첨단 접근법과 비교해도 우수하거나 동등한 성능을 보인다. 우리의 핵심 관찰은, 프레임 내 객체 인스턴스 간에 구별성이 있도록 훈련된 쿼리는 시간적으로 일관성을 가지며, 수동으로 설계된 휴리스틱 없이도 인스턴스 추적에 사용될 수 있다는 점이다. 따라서 MinVIS는 다음과 같은 추론 파이프라인을 갖는다: 먼저, 훈련된 쿼리 기반 이미지 인스턴스 세그멘테이션 모델을 비디오 프레임에 독립적으로 적용한다. 이후, 해당 쿼리들 간의 이분 매칭을 통해 분할된 인스턴스를 추적한다. 이 추론 과정은 온라인 방식으로 수행되며, 전체 비디오를 한 번에 처리할 필요가 없다. 결과적으로 MinVIS는 레이블링 비용과 메모리 요구량을 크게 줄이는 실용적 장점을 지니면서도, VIS 성능을 희생하지 않는다. 코드는 다음에서 공개되어 있다: https://github.com/NVlabs/MinVIS