تعلم وحدات ليغو قابلة للتركيب والتجاوز لنمذجة التشتت الفعالة والمُعاد تكوينها وذات دقة متغيرة

تتفوّق نماذج التشتت في إنشاء صور واقعية بشكل فوتوغرافي، لكنها تأتي بتكاليف حسابية كبيرة أثناء التدريب والاستخلاص. وعلى الرغم من وجود تقنيات مختلفة تُعالج هذه التحديات الحسابية، إلا أن هناك مسألة أقل استكشافًا تتمثل في تصميم هيكل أساسي لشبكة فعّالة ومُتعددة الاستخدامات لتحسين الصور بشكل تكراري. تُعتمد النماذج الحالية مثل U-Net وVision Transformer غالبًا على شبكات عميقة مكلفة بالموارد، وتفتقر إلى المرونة المطلوبة لتكوين صور بدرجات دقة متغيرة أو باستخدام شبكة أصغر من تلك المستخدمة أثناء التدريب. تقدّم هذه الدراسة ما يُسمّى بـ"أحجار الليغو" (LEGO bricks)، التي تدمج بسلاسة بين تعزيز السمات المحلية وتنظيم المحتوى العالمي. يمكن تجميع هذه الأحجار لتكوين هيكل أساسي قابل لإعادة التكوين أثناء الاختبار، مما يسمح باختيار تخطي بعض الأحجار لتقليل تكاليف الاستخلاص، وتمكين إنشاء صور ذات دقة أعلى من تلك المستخدمة في التدريب. تُثري أحجار الليغو المناطق المحلية باستخدام شبكة عصبية متعددة الطبقات (MLP) وتحوّلها باستخدام كتلة Transformer، مع الحفاظ على صورة بحلّة كاملة وثابتة عبر جميع الأحجار. تُظهر النتائج التجريبية أن أحجار الليغو تُحسّن كفاءة التدريب، وتسريع التقارب، وتمكّن من توليد صور بدرجات دقة متغيرة مع الحفاظ على أداء توليد قوي. علاوةً على ذلك، تقلّل أحجار الليغو بشكل كبير من زمن الاستخلاص مقارنةً بالطرق الأخرى، مما يجعلها تحسينًا قيّمًا لنموذج التشتت. يُمكن الاطلاع على الكود والموقع الرسمي للمشروع عبر الرابط: https://jegzheng.github.io/LEGODiffusion.