
인간은 물체의 일부가 가려져 있어도 전체를 인식하는 뛰어난 능력을 가지고 있습니다. 이 모달 감지(amodal perception) 능력은 우리가 세상을 지각하고 인지적으로 이해하는 기초를 형성합니다. 로봇에게 이러한 능력을 활용할 수 있도록 하기 위해, 우리는 새로운 작업을 제안하며 이를 모달 팬오믹 세그멘테이션(amodal panoptic segmentation)이라고 명명합니다. 이 작업의 목표는 물질(stuff) 클래스의 가시 영역에 대한 픽셀 단위 의미론적 세그멘테이션 라벨과 사물(thing) 클래스의 가시 및 가려진 영역에 대한 인스턴스 세그멘테이션 라벨을 동시에 예측하는 것입니다.이 새로운 작업에 대한 연구를 촉진하기 위해, 우리는 두 개의 확립된 벤치마크 데이터셋을 확장하여 픽셀 단위 모달 팬오믹 세그멘테이션 라벨을 포함시키고 이를 공개적으로 제공합니다. 이 데이터셋들은 KITTI-360-APS와 BDD100K-APS로 이름 붙여졌습니다. 또한, 해석 가능한 방식으로 성능을 정량화하기 위한 모달 팬오믹 품질(APQ, Amodal Panoptic Quality) 및 모달 파싱 커버리지(APC, Amodal Parsing Coverage) 지표를 제시하며 여러 강력한 기준모델(baselines)을 소개합니다.또한, 가림물(occluders)과 가려진 물체(occludes) 사이의 복잡한 관계를 명시적으로 모델링하여 이 작업에 접근하는 첫걸음으로 새로운 모달 팬오믹 세그멘테이션 네트워크(APSNet, Amodal Panoptic Segmentation Network)를 제안합니다. 광범위한 실험 평가 결과 APSNet은 두 벤치마크에서 최상의 성능을 달성하였으며, 더욱 중요한 점은 모달 인식(amodal recognition)의 유용성을 입증한다는 것입니다. 벤치마크는 http://amodal-panoptic.cs.uni-freiburg.de에서 이용 가능합니다.