HyperAI
منذ 8 أيام

رفع التردد ما يهم: عينة التمدد المكانية المُتكيفة مع المنطقة لمحولات التفتيح المتسارعة

Wongi Jeong; Kyungryeol Lee; Hoigi Seo; Se Young Chun
رفع التردد ما يهم: عينة التمدد المكانية المُتكيفة مع المنطقة لمحولات التفتيح المتسارعة
الملخص

لقد ظهرت نماذج التحويلات الانتشارية كخيار بديل لنموذج U-net في النماذج الانتشارية لإنشاء الصور والفيديوهات بدقة عالية، حيث توفر مرونة أفضل. ومع ذلك، فإن حساباتها الثقيلة ما زالت عائقًا رئيسيًا في تطبيقات العالم الحقيقي. تركز الطرق الحالية لتسريع العمليات على البعد الزمني، مثل إعادة استخدام الميزات المخزنة عبر خطوات النموذج الانتشاري. في هذه الورقة، نقترح "الرفع التكيفي للمساحة المخفية (RALU)"، وهو إطار عمل لا يتطلب التدريب يسرع العمليات عبر البعد المكاني. تقوم RALU بعينة متنوعة الدقة عبر ثلاث مراحل: 1) تقليل الضوضاء في المساحة المخفية بدقة منخفضة للحصول على بنية معنى عالمية بشكل فعال، 2) رفع دقة مساحة معينة معرضة للعيوب عند الدقة الكاملة، و3) رفع دقة جميع المساحات المخفية عند الدقة الكاملة لتحسين التفاصيل. لضمان استقرار الإنشاءات خلال الانتقالات بين الدقة، نستخدم إعادة ترتيب مراحل الضوضاء لتكيف مستوى الضوضاء مع الدقة المختلفة. تقلل طريقةنا بشكل كبير من الحسابات مع الحفاظ على جودة الصورة من خلال تحقيق تسريع يصل إلى 7.0 مرة في نموذج FLUX و3.0 مرة في نموذج Stable Diffusion 3 مع تدهور بسيط للغاية. علاوة على ذلك، فإن RALU مكملة للطرق الزمنية الحالية لتسريع العمليات، مثل طرق التخزين، وبالتالي يمكن دمجها بسلاسة لخفض زمن الاستجابة بشكل أكبر دون التأثير على جودة الإنشاء.