الملخص

توفر التوليد البصري القائم على تمثيلات نموذج الأساس البصري (VFM) مسارًا موحدًا وواعدًا للغاية لدمج الفهم البصري والإدراك والتوليد. وعلى الرغم من هذا الاحتمال، لا يزال تدريب نماذج التوليد التصوري الكبيرة من النص إلى الصورة بالكامل داخل فضاء تمثيلات VFM مجالًا غير مستكشف إلى حد كبير. ولسد هذه الفجوة، نُعدّل إطار SVG (تمثيلات ذاتية التدريب للتوظيف البصري)، ونُقدّم SVG-T2I لدعم التوليد عالي الجودة من النص إلى الصورة مباشرةً في مجال ميزات VFM. وباستخدام نموذج تدفق توليد النص إلى الصورة القياسي، يحقق SVG-T2I أداءً تنافسيًا، حيث يصل إلى 0.75 في GenEval و85.78 في DPG-Bench. ويؤكد هذا الأداء على القوة التمثيلية الجوهرية لـ VFMs في المهام التوليدية. ونُفصح تمامًا عن المشروع، بما في ذلك المُشفّر التلقائي ونموذج التوليد، جنبًا إلى جنب مع خطوط التدريب والاستدلال وتقييم الأداء، بالإضافة إلى الوزن المُدرّب مسبقًا، لتمكين الأبحاث المستقبلية في مجال التوليد البصري القائم على التمثيل.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SVG-T2I: توسيع نموذج التوليد المرئي من النص باستخدام التمايز الخفي دون استخدام المُشفّر التلقائي التبايني

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SVG-T2I: توسيع نموذج التوليد المرئي من النص باستخدام التمايز الخفي دون استخدام المُشفّر التلقائي التبايني

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SVG-T2I: توسيع نموذج التوليد المرئي من النص باستخدام التمايز الخفي دون استخدام المُشفّر التلقائي التبايني

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang

Minglei Shi Haolin Wang Borui Zhang Wenzhao Zheng Bohan Zeng Ziyang Yuan Xiaoshi Wu Yuanxing Zhang Huan Yang Xintao Wang