
초록
우리는 ControlNet을 소개합니다. 이는 대형 사전 학습된 텍스트-이미지 확산 모델에 공간 조건 제어를 추가하기 위한 신경망 구조입니다. ControlNet은 이미 사용 가능한 대형 확산 모델을 고정하고, 수십억 개의 이미지를 통해 사전 학습된 깊고 강력한 인코딩 레이어를 활용하여 다양한 조건 제어를 학습하는 강력한 백본으로 재사용합니다. 이 신경망 구조는 "제로 컨볼루션"(zero-initialized convolution layers)과 연결되어 있으며, 이는 매개변수를 0에서 점진적으로 증가시키면서 미세 조정(finetuning) 과정에 유해한 노이즈가 영향을 미치지 않도록 합니다. 우리는 Stable Diffusion을 사용하여 경계선, 깊이, 분할, 인간 자세 등 다양한 조건 제어를 단일 또는 다중 조건으로, 프롬프트(prompt)가 있는 경우와 없는 경우 모두 테스트하였습니다. 실험 결과, ControlNets의 학습은 작은(<50k) 데이터셋과 큰(>1m) 데이터셋 모두에서 안정적임을 보여주었습니다. 광범위한 결과들은 ControlNet이 이미지 확산 모델의 제어를 위한 더 넓은 응용 분야를 촉진할 수 있음을 시사하고 있습니다.