2달 전

언어 참조 표현을 활용한 비디오 객체 분할

Anna Khoreva; Anna Rohrbach; Bernt Schiele
언어 참조 표현을 활용한 비디오 객체 분할
초록

최신의 준지도 비디오 객체 분할 방법들은 대부분 비디오의 첫 프레임에 대해 제공되는 대상 객체의 픽셀 정확도 마스크에 의존합니다. 그러나 상세한 분할 마스크를 얻는 것은 비용이 많이 들고 시간이 소요됩니다. 본 연구에서는 대상 객체를 식별하는 대안적인 방법을 탐구하며, 이는 언어 참조 표현을 활용하는 것입니다. 대상 객체를 지정하는 더 실용적이고 자연스러운 방법일 뿐만 아니라, 언어 사양 사용은 드리프트를 피하고 복잡한 동역학 및 외관 변화에 대한 시스템의 강건성을 향상시키는데 도움이 됩니다. 이미지용으로 설계된 최근의 언어 근거 모델들의 발전을 활용하여, 우리는 이를 비디오 데이터로 확장하는 접근법을 제안하며, 시간적으로 일관된 예측을 보장합니다. 우리의 방법을 평가하기 위해, 인기 있는 비디오 객체 분할 벤치마크인 DAVIS'16과 DAVIS'17에 대상 객체의 언어 설명을 추가했습니다. 실험 결과, 우리의 언어 감독 접근법은 DAVIS'16에서 픽셀 수준 마스크에 접근 가능한 방법들과 유사한 성능을 보였으며, 어려운 DAVIS'17 데이터셋에서는 스케블(scribbles)을 사용하는 방법들과 경쟁력 있는 성능을 나타냈습니다.

언어 참조 표현을 활용한 비디오 객체 분할 | 최신 연구 논문 | HyperAI초신경