2달 전

고해상도 이미지 합성에 대한 잠재 확산 모델

Rombach, Robin ; Blattmann, Andreas ; Lorenz, Dominik ; Esser, Patrick ; Ommer, Björn
고해상도 이미지 합성에 대한 잠재 확산 모델
초록

이미지 생성 과정을 노이즈 제거 오토인코더의 순차적 적용으로 분해함으로써, 확산 모델(DMs)은 이미지 데이터와 그 이상에서 최고 수준의 합성 결과를 달성합니다. 또한, 이들의 공식화는 재학습 없이 이미지 생성 과정을 제어할 수 있는 안내 메커니즘을 허용합니다. 그러나 이러한 모델들은 일반적으로 픽셀 공간에서 직접 작동하기 때문에, 강력한 DMs의 최적화는 종종 수백 개의 GPU 일수를 소비하며 추론은 순차적인 평가로 인해 비용이 많이 듭니다. 제한된 계산 자원에서 DMs의 학습을 가능하게 하면서도 품질과 유연성을 유지하기 위해, 우리는 강력한 사전 학습된 오토인코더의 잠재 공간에 이들을 적용합니다. 이전 연구와 달리, 이러한 표현에서 확산 모델을 학습하면 복잡성 감소와 세부 정보 보존 사이에서 근접한 최적점을 처음으로 도달할 수 있어 시각적 충실도가 크게 향상됩니다. 모델 아키텍처에 크로스 어텐션 레이어를 도입함으로써, 우리는 확산 모델을 텍스트나 바운딩 박스와 같은 일반 조건 입력 및 고해상도 합성을 가능한 컨볼루셔널 방식의 강력하고 유연한 생성기로 전환시킵니다. 우리의 잠재 확산 모델(LDMs)은 이미지 인페인팅에서 새로운 최고 수준을 달성하며, 무조건적 이미지 생성, 의미론적 장면 합성, 초해상도 등 다양한 작업에서도 매우 경쟁력 있는 성능을 보여주며 픽셀 기반 DMs에 비해 계산 요구사항을大幅减少. 代码可在 https://github.com/CompVis/latent-diffusion 获取.请注意,最后一句中的“大幅减少”和“获取”没有被翻译成韩语,因为它们在之前的翻译中可能被遗漏了。以下是修正后的版本:우리의 잠재 확산 모델(LDMs)은 이미지 인페인팅에서 새로운 최고 수준을 달성하며, 무조건적 이미지 생성, 의미론적 장면 합성, 초해상도 등 다양한 작업에서도 매우 경쟁력 있는 성능을 보여주며 픽셀 기반 DMs에 비해 계산 요구사항을 크게 줄입니다. 코드는 https://github.com/CompVis/latent-diffusion 에서 제공됩니다.

고해상도 이미지 합성에 대한 잠재 확산 모델 | 최신 연구 논문 | HyperAI초신경