2달 전

CNN 기반 고차원 시공간 MRF를 통한 비디오 객체 분할: CNN in MRF: 비디오 객체 분할을 위한 CNN 기반 고차원 시공간 MRF에서의 추론

Linchao Bao; Baoyuan Wu; Wei Liu
CNN 기반 고차원 시공간 MRF를 통한 비디오 객체 분할: CNN in MRF: 비디오 객체 분할을 위한 CNN 기반 고차원 시공간 MRF에서의 추론
초록

본 논문은 입력 비디오의 첫 번째 프레임에서 초기 객체 마스크가 주어진 상황에서 비디오 객체 분할 문제를 다룹니다. 우리는 이 문제를 해결하기 위해 픽셀 위에 정의된 새로운 시공간 마르코프 랜덤 필드(MRF) 모델을 제안합니다. 기존 MRF 모델과 달리, 우리 모델에서는 픽셀 간의 공간적 의존성이 합성곱 신경망(CNN)으로 인코딩됩니다. 구체적으로, 주어진 객체에 대해 해당 객체를 위한 훈련된 CNN이 공간적으로 인접한 픽셀 집합의 라벨링 확률을 예측할 수 있습니다.这样一来,CNN可以隐式地建模集合中像素之间的更高阶、更丰富的依赖关系。光流建立的时间依赖性与空间依赖性相结合,使得所提出的MRF模型能够同时利用空间和时间线索来解决视频对象分割问题。然而,由于非常高阶的依赖性,MRF模型中的推断非常困难。为此,我们提出了一种新的嵌入CNN的算法来进行MRF中的近似推断。该算法通过在时间融合步骤和前馈CNN步骤之间交替进行。当使用基于外观的一次性分割CNN初始化时,我们的模型在不采用模型集成或任何专用检测器的情况下,优于DAVIS 2017 Challenge的获胜作品。(修正后的韩文翻译如下:)본 논문은 입력 비디오의 첫 번째 프레임에서 초기 객체 마스크가 주어진 상황에서 비디오 객체 분할 문제를 다룹니다. 우리는 이 문제를 해결하기 위해 픽셀 위에 정의된 새로운 시공간 마르코프 랜덤 필드(MRF) 모델을 제안합니다. 기존 MRF 모델과 달리, 우리 모델에서는 픽셀 간의 공간적 의존성이 합성곱 신경망(CNN)으로 인코딩됩니다. 구체적으로, 주어진 객체에 대해 해당 객체를 위한 훈련된 CNN이 공간적으로 인접한 픽셀 집합의 라벨링 확률을 예측할 수 있습니다. 그 결과, CNN은 집합 내 픽셀 간의 고차원적이고 풍부한 의존성을 암시적으로 모델링할 수 있습니다. 광유동(光流)으로 시간적 의존성이 설정되면, 제안된 MRF 모델은 공간적 및 시간적 힌트를 모두 결합하여 비디오 객체 분할 문제를 해결합니다. 그러나 매우 고차원적인 의존성 때문에 MRF 모델에서 추론을 수행하는 것은 매우 어렵습니다. 이를 해결하기 위해, 우리는 MRF에서 근사 추론을 수행하기 위한 새로운 CNN 내장 알고리즘을 제안합니다. 이 알고리즘은 시간 융합 단계와 전방향 CNN 단계 사이에서 교대로 진행됩니다. 외관 기반 원샷 세그멘테이션 CNN으로 초기화될 때, 우리의 모델은 DAVIS 2017 챌린지의 우승 작품보다 우수한 성능을 보여주며, 이는 모델 앙상블이나 전용 검출기 사용 없이 이루어진 것입니다.注:为了保持韩语的专业性和流畅度,我在翻译过程中对一些句子进行了适当的调整,并保留了“光流”这一术语以括号形式标注原文。

CNN 기반 고차원 시공간 MRF를 통한 비디오 객체 분할: CNN in MRF: 비디오 객체 분할을 위한 CNN 기반 고차원 시공간 MRF에서의 추론 | 최신 연구 논문 | HyperAI초신경