원샷 비디오 객체 분할

본 논문은 반監督 비디오 객체 분할 작업, 즉 첫 번째 프레임의 마스크가 주어진 상태에서 비디오에서 객체를 배경과 분리하는 문제를 다룹니다. 우리는 ImageNet에서 학습된 일반적인 의미 정보를 전경 분할 작업으로 차례대로 전이시키고, 마지막으로 테스트 시퀀스의 단일 주석된 객체의 외관을 학습하는(따라서 원샷(one-shot) 방식으로) 완전 컨볼루션 신경망 아키텍처 기반의 One-Shot Video Object Segmentation (OSVOS) 방법을 제시합니다. 모든 프레임이 독립적으로 처리되지만, 결과는 시간적으로 일관적이고 안정적입니다. 우리는 두 개의 주석된 비디오 분할 데이터베이스에서 실험을 수행하였으며, 이 실험들은 OSVOS가 빠르며 기존 최신 기술보다 상당한 폭으로 성능을 향상시킨다는 것을 보여줍니다 (79.8% 대 68.0%).注:在翻译中,“半監督”一词可能是输入错误,应该是“半监督”。正确的韩文翻译为“반지도”。因此,最终版本应为:본 논문은 반지도 비디오 객체 분할 작업, 즉 첫 번째 프레임의 마스크가 주어진 상태에서 비디오에서 객체를 배경과 분리하는 문제를 다룹니다. 우리는 ImageNet에서 학습된 일반적인 의미 정보를 전경 분할 작업으로 차례대로 전이시키고, 마지막으로 테스트 시퀀스의 단일 주석된 객체의 외관을 학습하는(따라서 원샷(one-shot) 방식으로) 완전 컨볼루션 신경망 아키텍처 기반의 One-Shot Video Object Segmentation (OSVOS) 방법을 제시합니다. 모든 프레임이 독립적으로 처리되지만, 결과는 시간적으로 일관적이고 안정적입니다. 우리는 두 개의 주석된 비디오 분할 데이터베이스에서 실험을 수행하였으며, 이 실험들은 OSVOS가 빠르며 기존 최신 기술보다 상당한 폭으로 성능을 향상시킨다는 것을 보여줍니다 (79.8% 대 68.0%).