2달 전

움직이는 물체를 객체 중심 계층 표현을 통해 분할하기

Junyu Xie; Weidi Xie; Andrew Zisserman
움직이는 물체를 객체 중심 계층 표현을 통해 분할하기
초록

본 논문의 목적은 비디오에서 여러 개의 움직이는 객체를 발견, 추적 및 분할할 수 있는 모델을 제시하는 것이다. 우리는 네 가지 기여를 한다: 첫째, 깊이 순서로 층 표현을 사용하는 객체 중심 분할 모델을 소개한다. 이는 광학 흐름을 입력으로 사용하는 트랜스포머 아키텍처의 변형을 통해 구현되며, 각 쿼리 벡터는 전체 비디오에 대한 객체와 그 층을 지정한다. 해당 모델은 효과적으로 여러 개의 움직이는 객체를 발견하고 상호 가림 현상을 처리할 수 있다; 둘째, 층 합성을 통해 다중 객체 합성 훈련 데이터를 생성하기 위한 확장 가능한 파이프라인을 소개한다. 이 파이프라인은 제안된 모델을 훈련시키는 데 사용되어, 노동 집약적인 주석 작업의 요구사항을 크게 줄이고 Sim2Real 일반화를 지원한다; 셋째, 철저한 감소 실험(ablation studies)을 수행하여 모델이 객체 영속성과 시간적 형태 일관성을 학습할 수 있으며, 무모달(amodal) 분할 마스크를 예측할 수 있음을 보여준다; 넷째, 합성 데이터만으로 훈련된 우리의 모델을 표준 비디오 분할 벤치마크인 DAVIS, MoCA, SegTrack, FBMS-59에서 평가하였으며, 수작업 주석에 의존하지 않는 기존 방법들 중 최고 성능을 달성하였다. 테스트 시 적응(test-time adaptation)을 통해 더욱 높은 성능 향상을 관찰하였다.

움직이는 물체를 객체 중심 계층 표현을 통해 분할하기 | 최신 연구 논문 | HyperAI초신경