11일 전

비디오 객체 세그멘테이션을 위한 공동 유도 및 비유도 학습

Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li
비디오 객체 세그멘테이션을 위한 공동 유도 및 비유도 학습
초록

반감독형 비디오 객체 세그멘테이션은 첫 번째 프레임에서 제공된 마스크 어노테이션만을 기반으로 비디오 시퀀스 내의 대상 객체를 분할하는 작업이다. 제한된 정보만을 바탕으로 하기 때문에 매우 도전적인 과제이다. 기존의 최고 성능을 기록한 대부분의 방법들은 매칭 기반의 전도적 추론(inductive reasoning) 또는 온라인 유도적 학습을 채택하고 있다. 그러나 이러한 방법들은 유사한 인스턴스에 대해 분별력이 부족하거나 시공간 정보를 충분히 활용하지 못하는 단점이 있다. 본 연구에서는 전도적 학습과 유도적 학습을 통합한 유일한 프레임워크를 제안하여, 두 방법 간의 보완성을 효과적으로 활용함으로써 정확하고 견고한 비디오 객체 세그멘테이션을 실현하고자 한다. 제안된 방법은 두 가지 기능적 브랜치로 구성된다. 전도 브랜치는 가벼운 트랜스포머 아키텍처를 사용하여 풍부한 시공간 정보를 집약하고, 유도 브랜치는 온라인 유도적 학습을 통해 분별력 있는 대상 정보를 획득한다. 이러한 서로 다른 두 브랜치를 연결하기 위해, 각 브랜치에 적합한 대상 사전지식(prior)을 학습할 수 있도록 이중 헤드 레이블 인코더를 도입한다. 생성된 마스크 인코딩은 보다 효과적인 보완성을 유지하기 위해 더욱 분리된(disentangled) 형태로 강제된다. 다양한 주요 벤치마크에서 실시한 광범위한 실험 결과, 합성 학습 데이터 없이도 제안된 방법이 일련의 새로운 최고 성능 기록을 수립함을 입증하였다. 코드는 https://github.com/maoyunyao/JOINT 에서 공개되어 있다.

비디오 객체 세그멘테이션을 위한 공동 유도 및 비유도 학습 | 최신 연구 논문 | HyperAI초신경