찾을 수 있다면 찾아보세요: 약한 감독 semantic segmentation을 위한 엔드 투 엔드 적대적 제거

시맨틱 세그멘테이션은 전통적으로 픽셀 단위의 정답 레이블을 포함한 대규모 데이터셋이 필요하며, 이러한 레이블을 확보하는 것은 시간과 비용이 많이 드는 작업이다. 최근 약한 지도 학습 환경에서의 발전은 이미지 단위의 레이블만을 사용해도 합리적인 성능을 달성할 수 있음을 보여주고 있다. 분류는 일반적으로 깊은 신경망을 학습시키는 대체 작업으로 사용되며, 이로부터 주의 맵(attention maps)을 추출한다. 그러나 분류 작업은 예측을 내리기 위해 최소한의 증거만 필요하므로, 가장 구분력 있는 객체 영역에 집중하게 된다. 이러한 문제를 해결하기 위해 우리는 주의 맵에 대한 새로운 형태의 적대적 제거(adversarial erasing) 방식을 제안한다. 기존의 적대적 제거 방법과 달리, 서로 반대되는 손실 함수를 가진 두 개의 네트워크를 동시에 최적화함으로써, 특정 비최적 전략에 대한 요구를 제거한다. 예를 들어, 학습 과정을 복잡하게 만드는 다단계 학습이나, 서로 다른 분포를 처리하는 네트워크 간에 가중치 공유 정책을 사용하는 것과 같은 비효율적인 전략이 필요하지 않다. 제안하는 방법은 명시적인 색채 강조 마스크(saliency masks)를 필요로 하지 않으며, 대신 주의 맵이 구분력이 낮은 객체 영역으로 확산되는 것을 방지하기 위해 정규화 손실(regularization loss)을 사용한다. Pascal VOC 데이터셋에서의 실험 결과, 제안한 적대적 접근 방식은 기준 모델에 비해 2.1 mIoU, 기존의 적대적 제거 접근 방식에 비해 1.0 mIoU만큼 세그멘테이션 성능을 향상시켰다.