
초록
통합 패노픽 세그멘테이션 방법은 여러 데이터셋에서 최신 성능을 달성하고 있다. 고해상도 데이터셋에서 이러한 성과를 달성하기 위해 이러한 방법들은 컷 기반 학습을 적용한다. 본 연구에서 우리는 컷 기반 학습이 일반적으로 유리한 점이 있음에도 불구하고, 부정적인 부작용이 존재함을 발견하였다. 구체적으로, 이는 통합 네트워크가 대규모 객체 인스턴스 간의 구분 능력을 제한하여, 여러 인스턴스 간에 예측이 혼동되는 현상을 초래한다는 점이다. 이를 해결하기 위해 우리는 배치 내 감독(Intra-Batch Supervision, IBS)을 제안한다. IBS는 동일 배치 내 여러 이미지를 활용하여 추가적인 감독 신호를 도입함으로써, 네트워크의 인스턴스 간 구분 능력을 향상시킨다. 본 연구에서는 IBS를 도입함으로써 혼동 문제를 성공적으로 해결하고, 통합 네트워크의 성능을 일관되게 향상시킬 수 있음을 보여준다. 고해상도 Cityscapes 및 Mapillary Vistas 데이터셋에서, 사물 클래스에 대한 패노픽 퀄리티(Panoptic Quality)는 최대 +2.5의 성능 향상을 기록하였으며, 특히 픽셀 정확도와 픽셀 정밀도에서는 각각 최대 +5.8의 더 두드러진 성능 향상을 달성하였다. 본 연구에서는 이러한 지표들이 혼동 문제를 보다 잘 반영할 수 있는 더 적절한 평가 기준임을 확인하였다.