HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة الصور ذات الكمية المتجهة باستخدام VQGAN المُحسَّنة

Jiahui Yu Xin Li Jing Yu Koh Han Zhang Ruoming Pang James Qin Alexander Ku Yuanzhong Xu Jason Baldridge Yonghui Wu

الملخص

تمكّن التدريب المسبق للنماذج اللغوية باستخدام التنبؤ بالرمز التالي على مجموعات نصية ضخمة من تحقيق إمكانات استثنائية في التعلم الصفرية، والتعلم القليل، والنقل التعلّمي، والمهام المتعددة، سواء في المهام اللغوية التوليدية أو التمييزية. مستلهمين من هذا النجاح، نستكشف نهجًا يُعرف بـ "نمذجة الصور الكمية المتجهة" (VIM)، والذي يشمل تدريب نموذج مُحول (Transformer) للتنبؤ برموز الصور المُرَتَّبة بشكل تسلسلي. يتم تشفير الرموز الصورية المتقطعة من خلال نموذج VQGAN مبني على نموذج محول الرؤية (Vision-Transformer) مُدرّب (ViT-VQGAN). نُقدّم أولًا تحسينات متعددة على نموذج VQGAN الأصلي، بدءًا من البنية المعمارية ووصولًا إلى تعلم مكتبة الرموز (codebook)، مما يؤدي إلى كفاءة أعلى ودقة أفضل في إعادة البناء. ويُحسّن نموذج ViT-VQGAN المُطوّر أداء مهام نمذجة الصور الكمية المتجهة، بما في ذلك توليد الصور دون شرط، وتوليد الصور بشروط فئوية، والتعلم التمثيلي غير المُراقب. عند تدريب النموذج على مجموعة ImageNet بحلّة 256×256، نحقق مؤشر إنسيبشن (IS) قدره 175.1، ومسافة فريشيه إنسيبشن (FID) قدرها 4.17، وهي تحسين كبير مقارنة بنموذج VQGAN الأصلي الذي حقق 70.6 و17.04 على التوالي بالنسبة لـ IS وFID. وباستخدام ViT-VQGAN والتدريب المسبق غير المُراقب، نقوم بتجريب النموذج المُدرّب مسبقًا (Transformer) من خلال متوسط القيم الوسطى للسمات، بطريقة مشابهة لنموذج Image GPT (iGPT). ويتفوّق نموذج VIM-L المدرّب على ImageNet على iGPT-L من حيث دقة التحقق الخطي، من 60.3% إلى 73.2%، مع حجم نموذج مشابه. كما يتفوّق VIM-L على iGPT-XL، الذي تم تدريبه باستخدام بيانات صور ويب إضافية وبحجم نموذج أكبر.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp