منذ 6 أشهر

الملخص

نُقدِّم نهجًا جديدًا لإنشاء الصور من خلال تحليل الصورة إلى تسلسل منظم، حيث يحتفظ كل عنصر في هذا التسلسل بنفس الدقة المكانية، لكنه يختلف في عدد الرموز الفريدة المستخدمة، مما يُمكّن من التقاط مستويات مختلفة من الدقة البصرية. ويتم إنشاء الصور من خلال الإطار الجديد المُسمى "التوليد بالدقة البصرية التالية" (Next Visual Granularity - NVG)، والذي يُولِّد تسلسلًا للدقة البصرية بدءًا من صورة فارغة، ويعمل على تحسينها تدريجيًا بطريقة منظمة، من التخطيط العام للصورة إلى التفاصيل الدقيقة. يُشَكِّل هذا التكرار تمثيلًا هرميًا متعدد الطبقات، مما يتيح تحكمًا دقيقًا في عملية التوليد عبر مستويات متعددة من الدقة. وقد قمنا بتدريب سلسلة من نماذج NVG لإنشاء صور شرطية حسب الفئة على مجموعة بيانات ImageNet، ولاحظنا سلوكًا واضحًا للتوسع (scaling). ومقارنةً بنموذج VAR، يتفوّق NVG باستمرار من حيث نقاط FID (من 3.30 إلى 3.03، ومن 2.57 إلى 2.44، ومن 2.09 إلى 2.06). كما أجرينا تحليلًا واسعًا لتوضيح القدرات وال潜力 المحتملة لإطار العمل NVG. وسيتم إصدار الكود والنماذج الخاصة بنا قريبًا.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار