ESS: 정지 이미지에서 이벤트 기반 의미 분할 학습하기

고정밀 동적 범위(HDR) 및 고속 조건에서 이미지 기반 알고리즘의 정확한 의미 정보 추출은 심각한 이미지 품질 저하로 인해 여전히 해결되지 않은 과제이다. 이에 비해 이벤트 카메라는 훨씬 높은 동적 범위를 갖추고 있으며 운동 흐림에 강건하다는 점에서 이러한 문제를 해결할 가능성을 지닌다. 그러나 이벤트 카메라를 활용한 의미 세분화(semantic segmentation)는 여전히 초기 단계에 있으며, 주로 고품질의 라벨링된 데이터셋 부족이 그 주요 원인이다. 본 연구에서는 기존 라벨링된 이미지 데이터셋에서 라벨이 없는 이벤트 데이터로 의미 세분화 작업을 직접 전이하는 비지도 도메인 적응(UDA) 기반의 ESS(Event-based Semantic Segmentation)를 제안한다. 기존 UDA 기법들과 비교해 본 방법은 반복적이고 운동 불변성(motion-invariant)을 갖춘 이벤트 임베딩을 이미지 임베딩과 정렬한다. 이로 인해 본 방법은 동영상 데이터가 필요 없으며, 이미지와 이벤트 간 픽셀 단위 정렬도 필요 없고, 특히 정지 이미지에서 운동을 추측(환각화)할 필요가 없다는 점에서 중요한 장점을 지닌다. 또한 본 연구에서는 세부적인 레이블을 갖춘 대규모 이벤트 기반 데이터셋인 DSEC-Semantic을 최초로 소개한다. 이미지 레이블만을 사용하여 ESS는 기존 UDA 접근법을 초월하며, 이벤트 레이블과 결합할 경우 DDD17 및 DSEC-Semantic 모두에서 최첨단의 지도 학습 접근법을 넘어서는 성능을 달성한다. 마지막으로, ESS는 일반 목적의 접근법이므로 기존의 방대한 라벨링된 이미지 데이터셋을 활용할 수 있게 되며, 이벤트 카메라로는 이전까지 접근이 어려웠던 새로운 분야에 대한 새로운 연구 방향을 열어줄 것으로 기대된다.