2달 전

실세계 레이아웃으로의 전환: 장면 적응을 위한 깊이 인식 프레임워크

Mu Chen; Zhedong Zheng; Yi Yang
실세계 레이아웃으로의 전환: 장면 적응을 위한 깊이 인식 프레임워크
초록

비지도 도메인 적응(UDA)을 통한 장면 분할은 소스 합성 데이터에서 얻은 지식을 실제 대상 데이터로 전송하여, 대상 영역에서 수작업으로 수행되는 픽셀 단위 주석의 필요성을 크게 줄입니다. 도메인 간 불변 특징 학습을 용이하게 하기 위해 기존 방법들은 일반적으로 소스 영역과 대상 영역의 데이터를 단순히 복사 및 붙여넣기로 혼합합니다. 이러한 기본적인 방법들은 실제 시나리오와 혼합된 레이아웃이 얼마나 잘 일치하는지를 고려하지 않으므로 보통 최적화되지 않습니다. 실제 시나리오는 본질적으로 레이아웃을 가지고 있습니다. 우리는 인도, 건물, 하늘 등의 의미 범주가 상대적으로 일관된 깊이 분포를 나타내며, 깊이 맵에서 명확히 구분될 수 있다는 점을 관찰하였습니다. 이러한 관찰에 기반하여, 우리는 깊이 인식 프레임워크를 제안하여 깊이 추정을 명시적으로 활용하여 범주를 혼합하고, 분할과 깊이 학습이라는 두 가지 보완적인 작업을 엔드투엔드 방식으로 지원합니다. 특히, 이 프레임워크는 데이터 증강을 위한 깊이 안내 컨텍스트 필터(DCF)와 컨텍스트 학습을 위한 크로스-태스크 인코더를 포함합니다. DCF는 실제 세계 레이아웃을 시뮬레이트하며, 크로스-태스크 인코더는 두 작업 간의 보완 특징들을 더욱 적응적으로 융합합니다. 또한 몇몇 공개 데이터셋들이 깊이 주석을 제공하지 않는다는 점에 주목해야 합니다. 따라서, 우리는 사전 훈련된 깊이 추정 네트워크를 활용하여 가짜 깊이(pseudo depth)를 생성하였습니다. 광범위한 실험 결과, 제안된 방법들이 가짜 깊이를 사용하더라도 두 개의 널리 사용되는 벤치마크에서 경쟁력 있는 성능을 달성하였음을 확인할 수 있습니다. 즉, GTA에서 Cityscapes로 77.7 mIoU와 Synthia에서 Cityscapes로 69.3 mIoU를 기록하였습니다.