17일 전

MSeg: 다중 도메인 세분적 분할을 위한 복합 데이터셋

John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun
MSeg: 다중 도메인 세분적 분할을 위한 복합 데이터셋
초록

우리는 다양한 도메인의 세분화 데이터셋을 통합하는 복합 데이터셋 MSeg를 제안한다. 구성 데이터셋을 단순히 합치는 방식은 분류 체계와 어노테이션 관행의 불일치로 인해 성능이 저하된다. 우리는 8만 장 이상의 이미지에 포함된 22만 개 이상의 객체 마스크를 재라벨링함으로써 분류 체계를 조율하고 픽셀 수준의 어노테이션을 정렬하였으며, 이 과정에는 총 1.34년 이상의 공동 어노테이터 노력이 필요했다. 결과적으로 생성된 복합 데이터셋은 단일 세분화 모델을 훈련시켜 다양한 도메인에서 효과적으로 작동하며, 훈련 중에 접하지 않은 데이터셋에도 일반화할 수 있도록 한다. 우리는 모델의 강건성(로버스트성)을 체계적으로 평가하기 위해 제로샷(Zero-shot) 크로스-데이터셋 전이를 기준으로 삼으며, 제안한 기여 없이 개별 데이터셋에 훈련하거나 단순히 데이터셋을 혼합한 경우와 비교해 MSeg 훈련이 훨씬 더 강건한 모델을 얻는다는 점을 보여준다. MSeg로 훈련된 모델은 WildDash-v1 리더보드에서 강건한 세분화 분야에서 1위를 차지했으며, 훈련 과정에서 WildDash 데이터에 전혀 노출되지 않았다. 우리는 2020년 강건한 시각 인식 챌린지(Robust Vision Challenge, RVC)에서 극단적인 일반화 실험을 수행하여 모델을 평가했다. MSeg 훈련 세트에는 RVC의 7개 데이터셋 중 단지 3개만 포함되어 있으며, 더욱 중요한 점은 RVC의 평가 분류 체계가 더 세밀하고 다름을 고려해야 한다. 놀랍게도, 우리의 모델은 경쟁력 있는 성능을 보이며 2위를 기록했다. 강건하고 효율적이며 완전한 장면 이해라는 궁극적 목표에 얼마나 가까이 다가섰는지를 평가하기 위해, 우리는 세분화를 넘어서 인스턴스 세분화 및 패노픽 세분화 모델을 본 데이터셋을 이용해 훈련하였다. 또한 해상도와 계산 효율성 등을 포함한 다양한 엔지니어링 설계 결정과 평가 지표도 평가하였다. 비록 우리의 모델은 여전히 궁극적 목표에 가까이 다가가지 못했지만, 본 종합적 평가는 진보를 위한 필수적인 기초가 된다. 우리는 모든 모델과 코드를 연구 공동체와 공유한다.