세マン틱 세그멘테이션을 위한 예측 전이 및 정규화

시맨틱 세그멘테이션은 일반적으로 픽셀 단위의 레이블이 부여된 대량의 이미지가 필요하다. 특히 전문가의 레이블링이 매우 비용이 큰 상황에서, 최근 연구들은 컴퓨터 게임과 같은 사진처럼 사실적인 합성 데이터(예: 컴퓨터 생성 레이블 포함)로 학습된 모델이 실제 이미지로의 적응이 가능함을 보여주었다. 그러나 이러한 발전에도 불구하고, 실제 이미지에 대한 예측에 제약을 두지 않는 경우, 합성 데이터와 실제 데이터 사이의 극심한 도메인 불일치로 인해 모델이 합성 데이터에 쉽게 과적합될 수 있다. 본 논문에서는 시맨틱 세그멘테이션의 내재적 특성을 새로운 방식으로 활용하여 모델 전이 과정에서 발생하는 이 문제를 완화한다. 구체적으로, 모델 전이 과정에서 비지도 방식으로 내재적 특성을 제약 조건으로 삼아 정규화하는 예측 전이 정규화기(Regularizer of Prediction Transfer, RPT)를 제안한다. 이 제약 조건은 이미지 형성 과정의 다양한 수준에서의 패치 수준, 클러스터 수준, 그리고 맥락 수준의 시맨틱 예측 일관성 등을 포함한다. 전이 과정은 레이블 없이 데이터 기반으로 이루어지므로, 예측의 강건성을 확보하기 위해 모델 정규화를 위해 이미지 영역의 일부를 선택적으로 활용한다. GTA5 및 SYNTHIA(합성 데이터)에서 학습된 모델을 Cityscapes 데이터셋(도시 스트리트 장면)으로 전이하는 데 있어 RPT의 효과를 검증하기 위해 광범위한 실험을 수행하였다. RPT는 여러 신경망에 대해 시맨틱 세그멘테이션 모델 전이에 제약 조건을 도입했을 때 일관된 성능 향상을 보였다. 더욱 놀라운 점은, RPT를 적대적 기반 세그멘테이션 프레임워크에 통합했을 때, 지금까지 보고된 최고의 성능을 기록했다. 각각 GTA5 및 SYNTHIA에서 Cityscapes로 전이할 때 mIoU는 53.2%, 51.7%를 달성하였다.