
의미 클래스는 형태가 명확하게 정의된 객체(예: 자동차, 사람)인 '것' 클래스와 형태가 불규칙한 배경 영역(예: 잔디, 하늘)인 '물질' 클래스로 구분될 수 있습니다. 많은 분류 및 감지 연구들이 '것' 클래스에 집중되어 있지만, '물질' 클래스에는 상대적으로 적은 관심이 주어져 왔습니다. 그러나 '물질' 클래스는 이미지의 중요한 측면을 설명하는 데 필수적이며, 이는 (1) 장면 유형; (2) 어떤 '것' 클래스가 존재할 가능성이 있으며 그 위치 (상황적 추론을 통해); (3) 장면의 물리적 속성, 재료 유형 및 기하학적 특성을 포함합니다. 이러한 문맥에서 '물질'과 '것'을 이해하기 위해 COCO-Stuff를 소개합니다. COCO 2017 데이터셋의 모든 164,000장의 이미지를 91개의 '물질' 클래스에 대한 픽셀 단위 주석으로 보강한 것입니다. 우리는 원래 '것' 주석을 활용하는 슈퍼픽셀(Superpixel) 기반 효율적인 '물질' 주석 프로토콜을 도입하였습니다. 우리의 프로토콜이 속도와 품질 간의 균형을 어떻게 조절하는지 측정하고, 주석 작업 시간과 경계 복잡성 간의 관계를 탐색하였습니다. 또한 COCO-Stuff를 사용하여 다음과 같은 분석을 수행하였습니다: (a) 표면 면적과 이미지 캡션에서 언급되는 빈도 측면에서 '물질'과 '것' 클래스의 중요성; (b) '물질'과 '것' 사이의 공간적 관계를 살펴보며, 이로 인해 우리의 데이터셋이 독특한 풍부한 문맥적 관계를 강조합니다; (c) 현대적인 의미 세그멘테이션 방법이 '물질'과 '것' 클래스에서 어떻게 작동하는지 평가하고, '물질'이 '것'보다 세그멘테이션이 더 쉬운지 여부를 검토합니다.