
초록
우리는 이미지에서 특정 범주에 속하는 모든 인스턴스를 감지하고, 각 인스턴스에 속하는 픽셀을 표시하는 것을 목표로 합니다. 이 작업을 동시 감지 및 분할(Simultaneous Detection and Segmentation, SDS)이라고 부릅니다. 클래식 바운딩 박스 감지와는 달리, SDS는 단순히 박스가 아닌 분할이 필요합니다. 또한 클래식 의미론적 분할과는 달리 개별 객체 인스턴스가 필요합니다. 우리는 카테고리에 독립적인 영역 제안(R-CNN [16])을 분류하기 위해 합성곱 신경망을 사용하는 최근 연구를 기반으로 하여, SDS에 특화된 새로운 아키텍처를 소개합니다. 그런 다음 카테고리별 상향식 피규어-그라운드 예측을 사용하여 하향식 제안을 정교화합니다. 우리는 기준 모델보다 7포인트(16% 상대적으로), 최신 의미론적 분할 모델보다 5포인트(10% 상대적으로) 성능이 향상되었음을 보여주며, 객체 감지에서도 최신 수준의 성능을 달성했습니다. 마지막으로, 성능 분석 도구를 제공하여 미래 연구 방향을 제시합니다.