MeViS: 동작 표현을 사용한 대규모 비디오 세그멘테이션 벤치마크

본 논문은 동작 표현을 기반으로 하는 비디오 세그멘테이션에 초점을 맞추고, 객체의 동작을 설명하는 문장에 따라 비디오 콘텐츠 내의 객체를 분할하는 방법을 연구합니다. 기존의 참조 비디오 객체 데이터셋들은 주로 눈에 띄는 객체에 집중하며, 이러한 객체를 단일 프레임에서 식별할 수 있는 과도한 정적 속성을 포함하는 언어 표현을 사용합니다. 이로 인해 이러한 데이터셋들은 언어 지시에 따른 비디오 객체 세그멘테이션에서 동작의 중요성을 축소시키고 있습니다. 동작 표현을 이용하여 비디오 내의 객체를 위치 추정 및 분할하는 것이 가능한지 조사하기 위해, 우리는 대규모 데이터셋인 MeViS를 제안합니다. 이 데이터셋은 복잡한 환경에서 목표 객체를 나타내는 다양한 동작 표현을 포함하고 있습니다.우리는 5개의 기존 참조 비디오 객체 세그멘테이션(RVOS) 방법들을 MeViS 데이터셋 상에서 벤치마킹하고 종합적인 비교를 수행했습니다. 결과는 현재 RVOS 방법들이 동작 표현을 기반으로 하는 비디오 세그멘테이션 문제를 효과적으로 해결하지 못함을 보여주었습니다. 이를 바탕으로 우리는 도전 과제들을 분석하고 제안된 MeViS 데이터셋을 위한 기준 접근법을 제시하였습니다. 우리의 벤치마킹 목표는 동작 표현을 주요 힌트로 활용하여 복잡한 비디오 장면에서 효과적인 언어 지시형 비디오 세그멘테이션 알고리즘 개발을 지원하는 플랫폼 제공입니다. 제안된 MeViS 데이터셋은 https://henghuiding.github.io/MeViS 에서 공개되었습니다.