الملخص

أصبح الكود وسيلة دقيقة قابلة للتنفيذ للتفكير والعمل في عصر الوكلاء. ومع ذلك، تركز التطورات السابقة بشكل كبير على المهام المرتبطة باللغة، مثل تركيب البرامج وتصحيح الأخطاء، مما يترك مجال البرمجة المرتكزة على الصور دون استكشاف كافٍ. مستوحين من الطريقة التي يفكر بها البشر عبر الرسومات التخطيطية، ندعو إلى استخدام كود SVG كتمثيل بصري مكثف، قابل للتفسير، وقابل للتنفيذ. نقدم VCode، وهو معيار يعيد صياغة فهم الوسائط المتعددة كمهمة إنشاء كود: فعند إعطاء صورة، يجب على النموذج إنتاج كود SVG يحافظ على المعنى الرمزي لتمكين التفكير اللاحق. يغطي VCode ثلاث مجالات: المعرفة الشائعة العامة (MM-Vet)، والاختصاصات المهنية (MMMU)، والتمييز البصري المركّز (CV-Bench). ولتقييم دقة التمثيل الرمزي، نقترح CodeVQA، وهي بروتوكول تقييم جديد يُستخدم فيه نموذج سياسة للإجابة على أسئلة موجهة إلى كود SVG بعد عرضه؛ حيث تشير الإجابات الصحيحة إلى الحفاظ الأمثل على المعنى الرمزي. من الناحية التجريبية، يواجه النماذج المتقدمة للرؤية الحاسوبية واللغة (VLMs) صعوبات في إنتاج كود SVG دقيق، مما يكشف عن فجوة مستمرة بين البرمجة المرتكزة على اللغة والبرمجة المرتكزة على الصور. ولسد هذه الفجوة، نقدّم VCoder، وهي إطار عمل قائم على الوكالة يعزز النماذج VLM على محورين: (أ) التفكير مع إعادة التقييم، حيث يتم تحليل الفروقات بشكل تكراري وتحسين كود SVG تدريجيًا؛ و(ب) العمل باستخدام أدوات بصرية، حيث توفر الكاشفات والمعالجات إشارات منظمة مثل الكائنات والأشكال والنصوص التي تتجاوز القدرة الداخلية للنموذج. عبر المعايير المختلفة، تحقق النماذج المتقدمة ذات القدرات القوية في التفكير نتائج جيدة بشكل عام، لكنها تظل محدودة في المعرفة المهنية والتفكير ثلاثي الأبعاد. ويحقق VCoder مكسبًا إجماليًا قدره 12.3 نقطة مقارنة بأفضل نموذج موجود، وهو Claude-4-Opus. كما أظهرت الدراسات البشرية أن البشر والنماذج VLM تؤدون بشكل أضعف عند التعامل مع كود SVG المعروض، لكن تقارب أدائهم يُظهر الإمكانات الواعدة لتمثيل بصري رمزي. يتوفر المعيار والكود على الرابط التالي: https://github.com/CSU-JPG/VCode.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters