HyperAIHyperAI

Command Palette

Search for a command to run...

MoVQ: ضبط المتجهات المُكمّلة لتصنيع صور عالية الوضوح

Chuanxia Zheng Long Tung Vuong Jianfei Cai Dinh Phung

الملخص

على الرغم من أن نماذج التوليد ذات المرحلة الثانية القائمة على التكميم المتجهي (VQ) تسمح بتوليد صور عالية الوضوح وعالية الدقة، إلا أن مشغل التكميم الخاص بها يقوم بتشفير المناطق المتشابهة داخل الصورة إلى نفس الفهرس، مما يؤدي إلى ظهور تشويهات متكررة في المناطق المتجاورة المتشابهة باستخدام هياكل المُفكك الحالية. ولحل هذه المشكلة، نقترح دمج التطبيع الشرطي المكاني لتعديل المتجهات المُكمّمة، بهدف إدخال معلومات متغيرة مكانيًا إلى خرائط الفهارس المدمجة، مما يشجع المُفكك على إنتاج صور أكثر واقعية بصريًا. علاوةً على ذلك، نستخدم التكميم متعدد القنوات لزيادة قدرة إعادة التجميع للرموز المنفصلة دون زيادة تكلفة النموذج أو قاعدة الرموز. بالإضافة إلى ذلك، لتكوين الرموز المنفصلة في المرحلة الثانية، نعتمد نموذج التحويلة التوليدية المُقنّعة للصورة (MaskGIT) لتعلم توزيع الاحتمال الأساسي في الفضاء الكامن المُضغوط، وهو أسرع بكثير من النماذج التوليدية ذات التسلسل التقليدي. وقد أظهرت التجارب على مجموعتي بيانات معياريتين أن النموذج المُعدّل VQGAN الذي نقترحه قادر على تحسين جودة الصور المُعاد بناؤها بشكل كبير، كما يوفر توليد صور عالية الولادة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp