2달 전

객체성의 등장: 비디오에서 제로샷 세그멘테이션 학습

Runtao Liu; Zhirong Wu; Stella X. Yu; Stephen Lin
객체성의 등장: 비디오에서 제로샷 세그멘테이션 학습
초록

인간은 물체가 무엇인지 알지 못하더라도 쉽게 움직이는 물체를 분할할 수 있습니다. 시각적 관찰이 지속됨에 따라 '물체성(objectness)'이 나타날 수 있다는 점은 비라벨 동영상에서 그룹화와 움직임을 동시에 모델링하는 동기를 부여합니다. 우리의 전제는 동영상이 같은 장면의 서로 다른 뷰로, 이 뷰들은 움직이는 구성 요소에 의해 관련되어 있다는 것입니다. 올바른 영역 분할과 영역 흐름(region flow)은 외부 감독 없이 데이터 자체에서 확인할 수 있는 상호 뷰 합성을 가능하게 합니다. 우리의 모델은 두 개의 별도 경로로 시작합니다: 단일 이미지를 위한 특징 기반 영역 분할을 출력하는 외관(appearance) 경로와 두 이미지 쌍을 위한 운동 특징을 출력하는 운동(motion) 경로입니다. 그런 다음, 각 영역 위에서 흐름 오프셋(flow offsets)을 통합하여 전체 장면의 움직이는 영역을 대략적으로 표현하는 '세그먼트 흐름(segment flow)'이라는 결합 표현으로 이를 결합합니다. 세그먼트 흐름에 기반한 뷰 합성 오류를 최소화하도록 모델을 학습시키면, 우리의 외관 및 운동 경로는 저수준 엣지나 광학 흐름(optical flows)로부터 구축하지 않고도 자동으로 영역 분할과 흐름 추정을 배웁니다. 우리의 모델은 외관 경로에서 물체성이 예상치 않게 나타나는 것을 보여주며, 이미지에서의 제로샷(zero-shot) 객체 분할, 비지도 테스트 시간 적응을 통한 동영상 내 움직이는 객체 분할, 그리고 지도된 미세 조정(supervised fine-tuning)을 통해 의미론적 이미지 분할 등 이전 연구들을 능가합니다. 우리의 연구는 처음으로 진정한 엔드투엔드(end-to-end) 제로샷 객체 분할을 동영상에서 실현하였습니다. 이는 단순히 분할과 추적을 위한 일반적인 물체성을 개발하는 것뿐만 아니라, 증강 공학(augmentation engineering) 없이도 널리 사용되는 이미지 기반 대조 학습(contrastive learning) 방법들을 능가한다는 점에서도 의의가 있습니다.

객체성의 등장: 비디오에서 제로샷 세그멘테이션 학습 | 최신 연구 논문 | HyperAI초신경