17일 전
DGInStyle: 이미지 확산 모델과 스타일화된 세분화 제어를 통한 도메인 일반화 가능한 세분화
Yuru Jia, Lukas Hoyer, Shengyu Huang, Tianfu Wang, Luc Van Gool, Konrad Schindler, Anton Obukhov

초록
대규모 사전 훈련된 잠재 확산 모델(LDM)은 창의적인 콘텐츠 생성, 소량의 훈련 데이터를 통한 사용자 데이터에 대한 특화, 그리고 의미 지도와 같은 다른 모달리티에 조건을 부여하는 등 놀라운 능력을 보여왔다. 그러나 이러한 모델들은 예를 들어 의미 분할과 같은 인지 스택 내 작업을 개선하기 위해 대규모 데이터 생성기로 활용될 수 있을까? 우리는 자율주행 시스템을 배경으로 이 질문을 탐구하고, 명확한 ‘예’라는 답을 제시한다. 본 연구에서는 DGInStyle이라 명명한 효율적인 데이터 생성 파이프라인을 제안한다. 첫째, 좁은 도메인 내에서 사전 훈련된 LDM을 의미적 제어 생성에 특화시키는 문제를 탐색한다. 둘째, 학습된 의미적 제어 능력을 풍부한 생성 사전에 통합하기 위해 스타일 스왑(Style Swap) 기법을 제안한다. 셋째, LDM이 주요 객체에 치우쳐 생성되는 편향을 극복하기 위해 다중 해상도 잠재 병합(Multi-resolution Latent Fusion) 기법을 설계한다. DGInStyle을 활용해 다양한 도로 환경 데이터셋을 생성하고, 이를 기반으로 도메인 무관한 의미 분할 모델을 훈련한 후, 여러 유명한 자율주행 데이터셋에서 모델 성능을 평가한다. 본 연구 방법은 기존 최고 성능 기법에 비해 여러 도메인 일반화 기법의 성능을 일관되게 향상시킨다. 소스 코드 및 생성된 데이터셋은 https://dginstyle.github.io 에서 공개된다.