Box2Mask: Box-감독된 인스턴스 분할을 위한 레벨셋 진화

완전 감독 방법과 달리 픽셀 단위 마스크 라벨을 사용하는 방식이 아닌,박스 기반 인스턴스 분할은 간단한 박스 주석을 활용하며, 최근 연구의 관심을 더욱 끌고 있습니다. 본 논문에서는박스2마스크(Box2Mask)라는 새로운 원샷 인스턴스 분할 접근법을 제시합니다. 이 방법은깊은 신경망 학습에 클래식 레벨셋 진화 모델을 통합하여, 오직 바운딩 박스 감독만으로도 정확한 마스크 예측을 실현합니다. 구체적으로,입력 이미지와 그 깊은 특징들이 모두 레벨셋 곡선의 암시적 진화에 활용되며, 픽셀 친화 커널을 기반으로 한 지역 일관성 모듈이지역 문맥과 공간 관계를 추출하는 데 사용됩니다. CNN 기반 및 트랜스포머 기반 두 가지 유형의 단일 단계 프레임워크가박스 기반 인스턴스 분할을 위한 레벨셋 진화를 강화하기 위해 개발되었으며, 각 프레임워크는 세 가지 필수 구성 요소로 이루어져 있습니다:인스턴스 인식 디코더, 박스 수준 매칭 할당 및 레벨셋 진화. 레벨셋 에너지 함수를 최소화함으로써, 각 인스턴스의 마스크 맵은바운딩 박스 주석 내에서 반복적으로 최적화될 수 있습니다. 일반적인 장면, 원격 감지, 의료 및 장면 텍스트 이미지를 포함하는 다섯 개의 도전적인 테스트베드에서 수행된 실험 결과는우리가 제안한 박스2마스크 접근법이 박스 기반 인스턴스 분할에서 우수한 성능을 보임을 입증합니다. 특히,Swin-Transformer 큰 백본을 사용하여 우리의 박스2마스크는 COCO 데이터셋에서 42.4%의 마스크 AP(mask Average Precision)를 얻었으며,이는 최근 개발된 완전 마스크 감독 방법들과 비슷한 수준입니다. 코드는 다음과 같은 주소에서 확인 가능합니다:https://github.com/LiWentomng/boxlevelset.