HyperAIHyperAI
منذ يوم واحد

التوليد البصري للدقة التالية

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy
التوليد البصري للدقة التالية
الملخص

نُقدِّم نهجًا جديدًا لإنشاء الصور من خلال تحليل الصورة إلى تسلسل منظم، حيث يحتفظ كل عنصر في هذا التسلسل بنفس الدقة المكانية، لكنه يختلف في عدد الرموز الفريدة المستخدمة، مما يُمكّن من التقاط مستويات مختلفة من الدقة البصرية. ويتم إنشاء الصور من خلال الإطار الجديد المُسمى "التوليد بالدقة البصرية التالية" (Next Visual Granularity - NVG)، والذي يُولِّد تسلسلًا للدقة البصرية بدءًا من صورة فارغة، ويعمل على تحسينها تدريجيًا بطريقة منظمة، من التخطيط العام للصورة إلى التفاصيل الدقيقة. يُشَكِّل هذا التكرار تمثيلًا هرميًا متعدد الطبقات، مما يتيح تحكمًا دقيقًا في عملية التوليد عبر مستويات متعددة من الدقة. وقد قمنا بتدريب سلسلة من نماذج NVG لإنشاء صور شرطية حسب الفئة على مجموعة بيانات ImageNet، ولاحظنا سلوكًا واضحًا للتوسع (scaling). ومقارنةً بنموذج VAR، يتفوّق NVG باستمرار من حيث نقاط FID (من 3.30 إلى 3.03، ومن 2.57 إلى 2.44، ومن 2.09 إلى 2.06). كما أجرينا تحليلًا واسعًا لتوضيح القدرات وال潜力 المحتملة لإطار العمل NVG. وسيتم إصدار الكود والنماذج الخاصة بنا قريبًا.