2달 전

정적 이미지에서 비디오 객체 분할 학습

Anna Khoreva; Federico Perazzi; Rodrigo Benenson; Bernt Schiele; Alexander Sorkine-Hornung
정적 이미지에서 비디오 객체 분할 학습
초록

최근 딥 러닝의 인스턴스 분할(instance segmentation) 및 객체 추적(object tracking) 분야에서의 발전에 영감을 받아, 우리는 비디오 객체 분할 문제를 안내된 인스턴스 분할 개념으로 소개합니다. 우리의 모델은 프레임별로 진행되며, 이전 프레임의 출력을 통해 다음 프레임의 관심 객체(object of interest)를 안내받습니다. 우리는 정적 이미지만으로 훈련된 컨볼루션 신경망(convnet)을 사용하여 비디오에서 매우 정확한 객체 분할이 가능함을 보여줍니다. 우리 접근 방식의 핵심 요소는 오프라인 학습 전략과 온라인 학습 전략의 조합입니다.前者在这里可以翻译为“오프라인 학습 전략”(offline learning strategy),后者则为“온라인 학습 전략”(online learning strategy)。前者用于从之前的帧估计中生成更精细的掩模(mask),后者则允许捕捉特定对象实例的具体外观(appearance)。我们的方法可以处理不同类型的输入注释:边界框(bounding boxes)和分段(segments),以及结合多个注释帧,这使得系统适用于各种应用。我们在三个不同的数据集上获得了具有竞争力的结果,这些结果独立于输入注释的类型。为了保持句子结构的自然流畅,这里对部分句子进行了微调:우리 접근 방식의 핵심 요소는 오프라인 학습 전략과 온라인 학습 전략의 조합입니다. 오프라인 학습 전략은 이전 프레임 추정치에서 더 정교한 마스크를 생성하는 역할을 하며, 온라인 학습 전략은 특정 객체 인스턴스의 외관을 포착할 수 있도록 합니다. 우리의 방법론은 다양한 유형의 입력 주석을 처리할 수 있습니다: 경계 상자(bounding boxes)와 세그먼트(segments), 그리고 여러 주석 프레임을 통합할 수도 있어, 이 시스템은 다양한 응용 분야에 적합합니다. 우리는 세 가지 다른 데이터셋에서 입력 주석 유형에 관계없이 경쟁력 있는 결과를 얻었습니다.

정적 이미지에서 비디오 객체 분할 학습 | 최신 연구 논문 | HyperAI초신경