HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي

الملخص

أصبح الكود وسيلة دقيقة قابلة للتنفيذ للتفكير والعمل في عصر الوكلاء. ومع ذلك، تركز التطورات السابقة بشكل كبير على المهام المرتبطة باللغة، مثل تركيب البرامج وتصحيح الأخطاء، مما يترك مجال البرمجة المرتكزة على الصور دون استكشاف كافٍ. مستوحين من الطريقة التي يفكر بها البشر عبر الرسومات التخطيطية، ندعو إلى استخدام كود SVG كتمثيل بصري مكثف، قابل للتفسير، وقابل للتنفيذ. نقدم VCode، وهو معيار يعيد صياغة فهم الوسائط المتعددة كمهمة إنشاء كود: فعند إعطاء صورة، يجب على النموذج إنتاج كود SVG يحافظ على المعنى الرمزي لتمكين التفكير اللاحق. يغطي VCode ثلاث مجالات: المعرفة الشائعة العامة (MM-Vet)، والاختصاصات المهنية (MMMU)، والتمييز البصري المركّز (CV-Bench). ولتقييم دقة التمثيل الرمزي، نقترح CodeVQA، وهي بروتوكول تقييم جديد يُستخدم فيه نموذج سياسة للإجابة على أسئلة موجهة إلى كود SVG بعد عرضه؛ حيث تشير الإجابات الصحيحة إلى الحفاظ الأمثل على المعنى الرمزي. من الناحية التجريبية، يواجه النماذج المتقدمة للرؤية الحاسوبية واللغة (VLMs) صعوبات في إنتاج كود SVG دقيق، مما يكشف عن فجوة مستمرة بين البرمجة المرتكزة على اللغة والبرمجة المرتكزة على الصور. ولسد هذه الفجوة، نقدّم VCoder، وهي إطار عمل قائم على الوكالة يعزز النماذج VLM على محورين: (أ) التفكير مع إعادة التقييم، حيث يتم تحليل الفروقات بشكل تكراري وتحسين كود SVG تدريجيًا؛ و(ب) العمل باستخدام أدوات بصرية، حيث توفر الكاشفات والمعالجات إشارات منظمة مثل الكائنات والأشكال والنصوص التي تتجاوز القدرة الداخلية للنموذج. عبر المعايير المختلفة، تحقق النماذج المتقدمة ذات القدرات القوية في التفكير نتائج جيدة بشكل عام، لكنها تظل محدودة في المعرفة المهنية والتفكير ثلاثي الأبعاد. ويحقق VCoder مكسبًا إجماليًا قدره 12.3 نقطة مقارنة بأفضل نموذج موجود، وهو Claude-4-Opus. كما أظهرت الدراسات البشرية أن البشر والنماذج VLM تؤدون بشكل أضعف عند التعامل مع كود SVG المعروض، لكن تقارب أدائهم يُظهر الإمكانات الواعدة لتمثيل بصري رمزي. يتوفر المعيار والكود على الرابط التالي: https://github.com/CSU-JPG/VCode.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VCode: معيار ترميز متعدد الوسائط مع استخدام SVG كتمثيل بصري رمزي | الأوراق البحثية | HyperAI