إنشاء صور ذات دقة عالية باستخدام نماذج التوزيع الكامنة

من خلال تحليل عملية تكوين الصورة إلى تطبيق متسلسل لمرشحات الترميز الذاتي المضادة للضوضاء، تحقق نماذج الانتشار (DMs) نتائج تركيب متميزة على بيانات الصور وغيرها. بالإضافة إلى ذلك، فإن صياغتها تسمح بآلية إرشادية لتحكم عملية إنشاء الصور دون الحاجة لإعادة التدريب. ومع ذلك، بما أن هذه النماذج تعمل عادةً مباشرة في فضاء البكسل، فإن تحسين نماذج الانتشار القوية يستهلك غالبًا مئات الأيام على وحدات معالجة الرسومات (GPU)، وتكون الاستدلال باهظ الثمن بسبب التقييمات المتسلسلة.لتمكين تدريب نماذج الانتشار على موارد حاسوبية محدودة مع الحفاظ على جودتها ومرونتها، نقوم بتطبيقها في فضاء الكامنة لنماذج الترميز الذاتي المدربة بشكل قوي ومسبق. بخلاف الأعمال السابقة، يسمح تدريب نماذج الانتشار على مثل هذا التقديم لأول مرة بالوصول إلى نقطة قريبة من الأمثل بين خفض التعقيد والحفاظ على التفاصيل، مما يعزز بشكل كبير الدقة البصرية. من خلال إدخال طبقات الانتباه المتقاطع في بنية النموذج، نحول نماذج الانتشار إلى مولدات قوية ومرونة للمدخلات المشروطة العامة مثل النص أو الصناديق الحدودية، ويصبح التركيب بدقة عالية ممكنًا بطريقة تقنية الإسناد (convolutional).تحقق نماذج الانتشار الكامنة لدينا (LDMs) مستوى جديد من التميز في مجال استكمال الصور وإداء تنافسي للغاية في مجموعة متنوعة من المهام، بما في ذلك إنشاء الصور غير المشروطة، تركيب المشاهد الدلالية، والترميز الفائق، بينما تخفض بشكل كبير متطلبات الحوسبة مقارنة بنماذج الانتشار المستندة إلى البكسل. يمكن الوصول إلى الشفرة البرمجية عبر الرابط:https://github.com/CompVis/latent-diffusion .