2달 전

SipMask: 빠른 이미지 및 비디오 인스턴스 세그멘테이션을 위한 공간 정보 보존

Jiale Cao; Rao Muhammad Anwer; Hisham Cholakkal; Fahad Shahbaz Khan; Yanwei Pang; Ling Shao
SipMask: 빠른 이미지 및 비디오 인스턴스 세그멘테이션을 위한 공간 정보 보존
초록

최근 단일 단계 인스턴스 분할 접근법이 속도와 간편성 덕분에 인기를 얻고 있지만, 여전히 두 단계 방법과 비교해 정확성이 뒤처지고 있습니다. 본 연구에서는 인스턴스 특유의 공간 정보를 보존하기 위해 감지된 바운딩 박스의 서로 다른 하위 영역으로 마스크 예측을 분리하는 빠른 단일 단계 인스턴스 분할 방법인 SipMask를 제안합니다. 우리의 주요 기여는 바운딩 박스 내 각 하위 영역에 대해 별도의 공간 계수 집합을 생성하여 마스크 예측을 개선하는 새로운 경량화 공간 보존(Spatial Preservation, SP) 모듈입니다. 이 모듈은 또한 공간적으로 인접한 인스턴스들의 정확한 구분을 가능하게 합니다. 또한, 우리는 마스크 예측과 객체 검출 사이의 상관관계를 더욱 강화하기 위해 마스크 정렬 가중치 손실 함수와 특징 정렬 방식을 도입하였습니다. COCO 테스트-개발 데이터셋에서 SipMask는 기존의 단일 단계 방법들을 능가합니다. 최신 단일 단계 방법인 TensorMask와 비교하면, SipMask는 절대적으로 1.0% (마스크 AP)의 성능 향상을 가져오며, 4배의 속도 향상도 제공합니다. 실시간 처리 능력 측면에서는 유사한 설정 하에서 YOLACT보다 절대적으로 3.0% (마스크 AP)의 성능 향상을 보이며, Titan Xp에서 유사한 속도로 작동합니다. 또한, SipMask를 실시간 비디오 인스턴스 분할에 평가하였으며, YouTube-VIS 데이터셋에서 유망한 결과를 달성하였습니다. 소스 코드는 https://github.com/JialeCao001/SipMask에서 확인할 수 있습니다.

SipMask: 빠른 이미지 및 비디오 인스턴스 세그멘테이션을 위한 공간 정보 보존 | 최신 연구 논문 | HyperAI초신경