11일 전

주행 장면을 위한 약한 감독(semi-supervised) 세분화

Dongseob Kim, Seungho Lee, Junsuk Choe, Hyunjung Shim
주행 장면을 위한 약한 감독(semi-supervised) 세분화
초록

이미지 레벨 레이블을 사용하는 약한 지도(semi-supervised) 세분화(WSSS) 기술의 최신 기법은 Cityscapes와 같은 주행 장면 데이터셋에서 심각한 성능 저하를 보이고 있다. 이 문제를 해결하기 위해, 주행 장면 데이터셋에 특화된 새로운 WSSS 프레임워크를 제안한다. 데이터셋의 특성을 광범위하게 분석한 결과, 사전 훈련된 대규모 이미지-텍스트 모델인 CLIP(Contrastive Language-Image Pre-training)를 기준 모델로 활용하여 의사 마스크(pseudo-masks)를 생성한다. 그러나 CLIP은 두 가지 핵심적인 문제를 야기한다: (1) CLIP에서 생성된 의사 마스크는 소형 객체 클래스를 충분히 표현하지 못하며, (2) 이러한 마스크에는 상당한 노이즈가 포함되어 있다. 본 연구에서는 각 문제에 대해 다음과 같은 해결책을 제안한다. (1) 소규모 패치를 모델 훈련 과정에 자연스럽게 통합하는 글로벌-로컬 뷰 훈련(Global-Local View Training) 기법을 도입함으로써, 주행 장면에서 중요하나 소형인 객체(예: 신호등)에 대한 모델의 처리 능력을 향상시킨다. (2) CLIP 마스크와 세분화 예측 간 일관성(coherence)을 평가함으로써 신뢰할 수 있는 영역과 노이즈가 포함된 영역을 구분하는 새로운 기법인 일관성 인지 영역 균형화(Consistency-Aware Region Balancing, CARB)를 제안한다. 이 기법은 적응적 손실 가중치를 통해 신뢰할 수 있는 픽셀을 노이즈가 많은 픽셀보다 우선적으로 처리한다. 주목할 점은 제안된 방법이 Cityscapes 테스트 데이터셋에서 51.8%의 mIoU를 달성하여, 주행 장면 데이터셋에 있어 강력한 WSSS 기준 모델의 잠재력을 입증했다는 것이다. CamVid 및 WildDash2 데이터셋에서의 실험 결과는, 소규모 데이터셋이나 시각적으로 도전적인 조건에서도 본 방법의 효과성을 입증한다. 코드는 https://github.com/k0u-id/CARB 에서 공개되어 있다.

주행 장면을 위한 약한 감독(semi-supervised) 세분화 | 최신 연구 논문 | HyperAI초신경