Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

الملخص
أدى التقدم الأخير في توليد الصور القائمة على التبديد إلى الاعتماد الكبير على نماذج التبديد المُخزَّنة التي تعتمد على مُشفِّرات التوليد التلقائي التبايني (VAEs). وعلى الرغم من فعاليتها في توليد صور عالية الوضوح، فإن النموذج المُعتمد على VAE+التبديد يعاني من كفاءة تدريب محدودة، وسرعة استنتاج بطيئة، وقلة قابلية التحويل إلى مهام بصرية أوسع. وتنبع هذه المشكلات من خلل رئيسي في فضاءات التمثيل المُخزَّنة لـ VAE: وهو غياب الفصل الدلالي الواضح والبنية التمييزية القوية. وتوصل تحليلنا إلى أن هذه الخصائص تُعدّ حاسمة ليس فقط لمهام الإدراك والفهم، بل أيضًا لتدريب نماذج التبديد المُخزَّنة بشكل مستقر وفعال. استنادًا إلى هذا التحليل، نقدّم SVG، وهو نموذج جديد للتبديد المُخزَّن لا يعتمد على مُشفِّرات التوليد التلقائي التبايني، ويستفيد من تمثيلات ذاتية التدريب (self-supervised representations) لغرض توليد الصور. يُنشئ SVG فضاء ميزات يتميز بتمييز دلالي واضح من خلال استغلال ميزات DINO المُجمَّدة، في حين يُعوّض فرع خفيف الوزن مُستقل بجمع التفاصيل الدقيقة لضمان إعادة بناء عالية الوضوح. ويتم تدريب نماذج التبديد مباشرةً على هذا الفضاء المُخزَّن المُهيكل دلاليًا، مما يُسهّل التعلُّم بشكل أكثر كفاءة. ونتيجة لذلك، يُمكّن SVG من تسريع عملية تدريب التبديد، ويدعم العينات بخطوات قليلة، ويعزز جودة التوليد. كما تُظهر النتائج التجريبية أن SVG يحافظ على القدرات الدلالية والتوصيفية للتمثيلات ذاتية التدريب الأساسية، مما يوفّر طريقًا منهجيًا نحو تمثيلات بصرية عامة للمهام، عالية الجودة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.