다중 시점 집합 네트워크를 이용한 이원 이미지 분할

이진 이미지 분할(Dichotomous Image Segmentation, DIS)은 최근 고해상도 자연 이미지에서 고정밀 객체 분할을 위해 등장하였습니다. 효과적인 DIS 모델을 설계할 때 주요 과제는 작은 수용 영역에서의 고해상도 대상의 의미적 분산과 큰 수용 영역에서의 고정밀 세부 정보 손실 간의 균형을 맞추는 것입니다. 기존 방법들은 전역 위치 파악과 국소 정교화를 점진적으로 완성하기 위해 번거로운 다중 인코더-디코더 스트림과 단계에 의존하고 있습니다.인간 시각 시스템은 여러 시점에서 관심 영역을 관찰하여 포착합니다. 이에 착안하여, 우리는 DIS를 다중 시점 객체 인식 문제로 모델링하고 간결한 다중 시점 집합 네트워크(Multi-View Aggregation Network, MVANet)를 제시하였습니다. MVANet은 먼 시점과 가까운 시점의 특징 융합을 하나의 인코더-디코더 구조로 통합합니다. 제안된 다중 시점 보완 위치 파악 및 정교화 모듈들의 도움으로, 우리의 접근 방식은 다양한 시점 간에 장거리적이고 깊은 시각 상호작용을 설정하여 세부적인 가까운 시점의 특징이 매우 얇고 긴 구조에 초점을 맞출 수 있도록 하였습니다.인기 있는 DIS-5K 데이터셋에서 수행된 실험 결과, 우리의 MVANet은 정확성과 속도 측면에서 최신 방법들을 크게 능가하는 것으로 나타났습니다. 소스 코드와 데이터셋은 \href{https://github.com/qianyu-dlut/MVANet}{MVANet} 페이지에서 공개될 예정입니다.