고도로 정확한 이분법적 이미지 분할

우리는 자연 이미지에서 매우 정확한 객체를 분할하는 새로운 작업인 이분 이미지 분할(Dichotomous Image Segmentation, DIS)에 대한 체계적인 연구를 제시합니다. 이를 위해 우리는 다양한 배경에서 위장된, 주목되는 또는 세밀한 객체를 포함하는 5,470개의 고해상도(예: 2K, 4K 이상) 이미지를 포함하는 최초의 대규모 DIS 데이터셋인 DIS5K를 수집했습니다. DIS는 극히 미세한 라벨로 주석이 달려 있습니다. 또한, 특징 수준과 마스크 수준의 가이드라인을 모두 사용하여 DIS 모델 훈련을 위한 중간 감독 기반(IS-Net)을 소개합니다. IS-Net은 제안된 DIS5K에서 다양한 최신 기법들을 능가하며, 이를 통해 미래의 DIS 연구를 촉진할 수 있는 일반적인 자기 학습 감독 네트워크임을 입증하였습니다.또한, 우리는 거짓 양성과 거짓 음성을 수정하기 위해 필요한 마우스 클릭 횟수를 추정하는 새로운 지표인 인간 수정 노력(Human Correction Efforts, HCE)을 설계하였습니다. HCE는 모델과 실제 응용 사이의 차이를 측정하는데 활용되며, 기존 지표들을 보완할 수 있습니다. 마지막으로, 우리는 가장 큰 규모의 벤치마크 실험을 수행하여 16개의 대표적인 분할 모델을 평가하였으며, 객체 복잡성에 대한 더 깊은 논의와 몇 가지 잠재적인 응용 사례(예: 배경 제거, 예술 디자인, 3D 재구성)를 제시하였습니다. 이러한 노력들이 학계와 산업계 모두에서 유망한 방향을 열어주기를 바랍니다. 프로젝트 페이지: https://xuebinqin.github.io/dis/index.html.