2달 전
이미지 조건부 확산 모델의 Fine-Tuning은 생각보다 쉽다
Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe

초록
최근의 연구에서는 대규모 확산 모델이 단일 카메라 깊이 추정기로 재사용될 수 있으며, 깊이 추정을 이미지 조건부 이미지 생성 작업으로 변환함으로써 이점을 입증하였습니다. 제안된 모델은 최고 수준의 성과를 달성하였으나, 다단계 추론에 따른 높은 계산 요구량으로 인해 많은 시나리오에서 활용이 제한되었습니다. 본 논문에서는 이러한 효율성 부족이 지금까지 발견되지 않았던 추론 파이프라인의 결함에 의해 발생한 것임을 보여드립니다. 고정된 모델은 최고의 이전 구성과 유사한 성능을 발휘하면서도 200배 이상 빠르게 작동합니다. 다운스트림 작업 성능을 최적화하기 위해, 우리는 단일 단계 모델 위에서 작업 특유의 손실 함수를 사용하여 엔드 투 엔드 미세 조정(end-to-end fine-tuning)을 수행하고, 이를 통해 모든 다른 확산 기반 깊이 및 법선(normal) 추정 모델보다 우수한 결정론적 모델(deterministic model)을 얻었습니다. 우리는 놀랍게도 이 미세 조정 프로토콜(fine-tuning protocol)이 Stable Diffusion에서도 직접 적용되며, 현재 최고 수준의 확산 기반 깊이 및 법선 추정 모델과 유사한 성능을 달성하는 것을 발견하였습니다. 이는 과거 연구에서 도출된 일부 결론들을 재검토할 필요성을 제기합니다.