17일 전

MDQE: 도전적인 영상에서 겹쳐진 인스턴스를 세그멘테이션하기 위한 구분력 있는 쿼리 임베딩 탐색

Minghan Li, Shuai Li, Wangmeng Xiang, Lei Zhang
MDQE: 도전적인 영상에서 겹쳐진 인스턴스를 세그멘테이션하기 위한 구분력 있는 쿼리 임베딩 탐색
초록

비록 인상적인 진전이 이루어졌지만, 클립 단위 입력을 사용하는 영상 인스턴스 세분화(VIS) 기법은 객체가 가려지거나 복잡한 장면이 포함된 어려운 영상에서는 종종 실패한다. 이는 이러한 기법에서 인스턴스 쿼리가 인스턴스의 구분 가능한 임베딩을 효과적으로 표현하지 못하기 때문이며, 결과적으로 쿼리 기반 세분화 모델이 ‘어려운’ 인스턴스들을 구분하는 데 어려움을 겪는다. 이러한 문제를 해결하기 위해, 어려운 영상에서 가려진 인스턴스를 세분화할 수 있도록 구분 가능한 쿼리 임베딩을 탐색하는 방법(MDQE)을 제안한다. 먼저, 객체 쿼리의 위치 임베딩과 콘텐츠 특징을 공간적 맥락 정보와 프레임 간 객체 운동을 고려하여 초기화한다. 둘째, 각 인스턴스가 인접한 비타겟 인스턴스로부터 멀어지도록 유도하는 인스턴스 간 마스크 반발 손실을 제안한다. 제안한 MDQE는 클립 단위 입력을 사용하는 VIS 기법 중 처음으로 어려운 영상에서 최신 기준(SOTA) 성능을 달성하며, 단순한 영상에서도 경쟁력 있는 성능을 보여준다. 구체적으로, ResNet50 기반의 MDQE는 OVIS에서 33.0%, YouTube-VIS 2021에서 44.5%의 마스크 AP를 기록하였다. MDQE의 코드는 \url{https://github.com/MinghanLi/MDQE_CVPR2023}에서 확인할 수 있다.