11일 전
Drive&Segment: 크로스모달 디스틸레이션을 통한 도시 환경의 비지도적 시맨틱 세그멘테이션
Antonin Vobecky, David Hurych, Oriane Siméoni, Spyros Gidaris, Andrei Bursuc, Patrick Pérez, Josef Sivic

초록
이 연구는 도시 환경에서 인간의 수동 라벨링 없이, 자동차가 카메라와 LiDAR 센서를 탑재하여 수집한 원시적이고 정제되지 않은 데이터만을 이용하여 픽셀 단위의 의미적 이미지 세그멘테이션 학습을 탐구한다. 본 연구의 기여는 세 가지로 나뉜다. 첫째, 동기화된 LiDAR와 이미지 데이터를 활용하여 다중 모달 비지도 학습 기반의 의미적 이미지 세그멘테이션을 위한 새로운 방법을 제안한다. 본 방법의 핵심은 LiDAR 포인트 클라우드를 분석하여 공간적으로 일관된 객체 후보를 추출하는 객체 후보 모듈을 도입한 것이다. 둘째, 이러한 3차원 객체 후보들이 입력 이미지와 정확히 정렬되어 의미적으로 유의미한 가짜 클래스(pseudo-classes)로 신뢰성 있게 군집화될 수 있음을 보여준다. 셋째, 생성된 가짜 클래스로 부분적으로 주석이 달린 이미지 데이터를 활용하여 트랜스포머 기반 모델을 위한 이미지 의미적 세그멘테이션을 학습하는 다중 모달 디스틸레이션( distillation) 기법을 개발한다. 제안한 방법의 일반화 능력을 검증하기 위해, 미세조정(finetuning) 없이 네 가지 다른 테스트 데이터셋(Cityscapes, Dark Zurich, Nighttime Driving, ACDC)에서 실험을 수행하였으며, 기존 최고 수준의 기법과 비교해 유의미한 성능 향상을 입증하였다. 코드 및 보다 자세한 정보는 프로젝트 웹사이트(https://vobecant.github.io/DriveAndSegment/)를 참조하라.