Command Palette
Search for a command to run...
رسم أيسر من التفكير: هل يمكن لنماذج النص إلى الصورة أن تُهيئ المسرح، لكنها لا تُوجِّه العرض؟
Ouxiang Li Yuan Wang Xinting Hu Huijuan Huang et al

الملخص
تهدف إنشاء الصور من النص (T2I) إلى توليد صور من خلال مطالبات نصية، حيث تحدد هذه المطالبات ما يجب عرضه بشكل مباشر، وتشير إلى ما يمكن استخلاصه بشكل ضمني، مما يتوافق مع قدرتين رئيسيتين: التكوين والاستدلال. ومع ذلك، ومع التطورات المتسارعة في نماذج T2I فيما يتعلق بالاستدلال أبعد من مجرد التكوين، تظهر المعايير الحالية قيودًا واضحة في تقديم تقييمات شاملة على المستويين – داخل القدرات وعبرها. وفي الوقت نفسه، تتيح هذه التطورات للنماذج التعامل مع مطالبات أكثر تعقيدًا، بينما تظل المعايير الحالية محدودة بمساحات بسيطة ذات كثافة منخفضة ونماذج استدلال مبسطة ذات علاقة واحدة-لواحدة. وللتصدي لهذه القيود، نقترح "T2I-CoReBench"، وهي معايير شاملة ومركبة لتقييم قدرات التكوين والاستدلال في نماذج T2I. ولضمان الشمولية، نُصِّغ التكوين حول عناصر رسومات المشهد (الكائن، والصفة، والعلاقة)، ونُصِّغ الاستدلال حول الإطار الفلسفي للاستنتاج (الاستنتاج الاستنتاجي، الاستنتاج الاستقرائي، والاستنتاج الاستنتاجي التخميني)، مما يؤدي إلى صياغة تصنيف تقييمي مكون من 12 بعدًا. ولزيادة التعقيد، ومحفّزًا بالتعقيدات الجوهرية للسياقات الواقعية، نُعدّ كل مطالبة بتركيز عالٍ على الكثافة التكوينية، ومتعددة الخطوات في الاستدلال. كما نرافق كل مطالبة بقائمة مراجعة (checklist) تضم أسئلة نعم/لا منفصلة لتقييم كل عنصر مطلوب بشكل مستقل، مما يسهل عملية التقييم الدقيق والموثوق. من حيث الإحصائيات، يضم معيارنا 1080 مطالبة صعبة وحوالي 13,500 سؤالًا ضمن قائمة المراجعة. وتبين التجارب التي أجريت على 27 نموذجًا حديثًا في مجال T2I أن قدرة النماذج على التكوين لا تزال محدودة في السياقات المعقدة ذات الكثافة العالية، في حين أن قدرتها على الاستدلال تتأخر بشكل أكبر، كعائق رئيسي، حيث يعاني جميع النماذج من صعوبة في استخلاص العناصر الضمنية من المطالبات. صفحة المشروع: هذا الرابط https URL.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.