VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي
Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

الملخص
أصبح الكود وسيلة دقيقة قابلة للتنفيذ للتفكير والعمل في عصر الوكلاء. ومع ذلك، تركز التطورات السابقة بشكل كبير على المهام المرتبطة باللغة، مثل تركيب البرامج وتصحيح الأخطاء، مما يترك مجال البرمجة المرتكزة على الصور دون استكشاف كافٍ. مستوحين من الطريقة التي يفكر بها البشر عبر الرسومات التخطيطية، ندعو إلى استخدام كود SVG كتمثيل بصري مكثف، قابل للتفسير، وقابل للتنفيذ. نقدم VCode، وهو معيار يعيد صياغة فهم الوسائط المتعددة كمهمة إنشاء كود: فعند إعطاء صورة، يجب على النموذج إنتاج كود SVG يحافظ على المعنى الرمزي لتمكين التفكير اللاحق. يغطي VCode ثلاث مجالات: المعرفة الشائعة العامة (MM-Vet)، والاختصاصات المهنية (MMMU)، والتمييز البصري المركّز (CV-Bench). ولتقييم دقة التمثيل الرمزي، نقترح CodeVQA، وهي بروتوكول تقييم جديد يُستخدم فيه نموذج سياسة للإجابة على أسئلة موجهة إلى كود SVG بعد عرضه؛ حيث تشير الإجابات الصحيحة إلى الحفاظ الأمثل على المعنى الرمزي. من الناحية التجريبية، يواجه النماذج المتقدمة للرؤية الحاسوبية واللغة (VLMs) صعوبات في إنتاج كود SVG دقيق، مما يكشف عن فجوة مستمرة بين البرمجة المرتكزة على اللغة والبرمجة المرتكزة على الصور. ولسد هذه الفجوة، نقدّم VCoder، وهي إطار عمل قائم على الوكالة يعزز النماذج VLM على محورين: (أ) التفكير مع إعادة التقييم، حيث يتم تحليل الفروقات بشكل تكراري وتحسين كود SVG تدريجيًا؛ و(ب) العمل باستخدام أدوات بصرية، حيث توفر الكاشفات والمعالجات إشارات منظمة مثل الكائنات والأشكال والنصوص التي تتجاوز القدرة الداخلية للنموذج. عبر المعايير المختلفة، تحقق النماذج المتقدمة ذات القدرات القوية في التفكير نتائج جيدة بشكل عام، لكنها تظل محدودة في المعرفة المهنية والتفكير ثلاثي الأبعاد. ويحقق VCoder مكسبًا إجماليًا قدره 12.3 نقطة مقارنة بأفضل نموذج موجود، وهو Claude-4-Opus. كما أظهرت الدراسات البشرية أن البشر والنماذج VLM تؤدون بشكل أضعف عند التعامل مع كود SVG المعروض، لكن تقارب أدائهم يُظهر الإمكانات الواعدة لتمثيل بصري رمزي. يتوفر المعيار والكود على الرابط التالي: https://github.com/CSU-JPG/VCode.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.