HyperAIHyperAI
منذ 15 أيام

MoVQ: ضبط المتجهات المُكمّلة لتصنيع صور عالية الوضوح

Chuanxia Zheng, Long Tung Vuong, Jianfei Cai, Dinh Phung
MoVQ: ضبط المتجهات المُكمّلة لتصنيع صور عالية الوضوح
الملخص

على الرغم من أن نماذج التوليد ذات المرحلة الثانية القائمة على التكميم المتجهي (VQ) تسمح بتوليد صور عالية الوضوح وعالية الدقة، إلا أن مشغل التكميم الخاص بها يقوم بتشفير المناطق المتشابهة داخل الصورة إلى نفس الفهرس، مما يؤدي إلى ظهور تشويهات متكررة في المناطق المتجاورة المتشابهة باستخدام هياكل المُفكك الحالية. ولحل هذه المشكلة، نقترح دمج التطبيع الشرطي المكاني لتعديل المتجهات المُكمّمة، بهدف إدخال معلومات متغيرة مكانيًا إلى خرائط الفهارس المدمجة، مما يشجع المُفكك على إنتاج صور أكثر واقعية بصريًا. علاوةً على ذلك، نستخدم التكميم متعدد القنوات لزيادة قدرة إعادة التجميع للرموز المنفصلة دون زيادة تكلفة النموذج أو قاعدة الرموز. بالإضافة إلى ذلك، لتكوين الرموز المنفصلة في المرحلة الثانية، نعتمد نموذج التحويلة التوليدية المُقنّعة للصورة (MaskGIT) لتعلم توزيع الاحتمال الأساسي في الفضاء الكامن المُضغوط، وهو أسرع بكثير من النماذج التوليدية ذات التسلسل التقليدي. وقد أظهرت التجارب على مجموعتي بيانات معياريتين أن النموذج المُعدّل VQGAN الذي نقترحه قادر على تحسين جودة الصور المُعاد بناؤها بشكل كبير، كما يوفر توليد صور عالية الولادة.

MoVQ: ضبط المتجهات المُكمّلة لتصنيع صور عالية الوضوح | أحدث الأوراق البحثية | HyperAI