HyperAIHyperAI

Command Palette

Search for a command to run...

دور-أو-إعادة-الصياغة: توليد صور فعّال باستخدام نموذج RQ-Transformer السياقي

Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han

الملخص

رغم النتائج الواعدة التي حققتها النماذج ذات التوليد التلقائي (autoregressive models) في توليد الصور، إلا أن عملية التوليد ذات الاتجاه الواحد تمنع الصور الناتجة من التعبير الكامل عن السياقات العالمية. ولحل هذه المشكلة، نقترح إطارًا فعّالًا لتوليد الصور يُسمى "المسودة والتعديل" (Draft-and-Revise) مع استخدام محول RQ-Transformer القائم على السياق، بهدف أخذ السياقات العالمية بعين الاعتبار أثناء عملية التوليد. وباعتباره نموذجًا عامًا لـ VQ-VAE، يُمثّل RQ-VAE صورة عالية الدقة كسلسلة من كتل الرموز المنفصلة. وبعد أن تُخفي عشوائيًا كتل الرموز في السلسلة، يُدرّب محول RQ-Transformer القائم على السياق على ملء الكتل المخفية استنادًا إلى السياقات غير المخفية في الصورة. ثم يستخدم محول RQ-Transformer الترميز المزدوج الطور "المسودة والتعديل" (Draft-and-Revise) لتوليد الصورة، مع الاستفادة من السياقات العالمية أثناء التوليد. وبشكل خاص، في مرحلة المسودة، يركّز نموذجنا أولًا على إنتاج صور متنوعة، رغم جودتها المنخفضة نسبيًا. ثم، في مرحلة التعديل، يُحسّن النموذج جودة الصور تدريجيًا، مع الحفاظ على السياقات العالمية للصور المولدة. وفي التجارب، حقق نهجنا نتائج متقدمة على مستوى التقنيات الحالية في توليد الصور الشرطية. كما تم التحقق من أن خوارزمية الترميز "المسودة والتعديل" قادرة على تحقيق أداء عالٍ من خلال التحكم الفعّال في التوازن بين الجودة والتنوع في توليد الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp