Command Palette
Search for a command to run...
مجموعة بيانات توليد الكود متعدد الوسائط MCD
التاريخ
الحجم
رابط الورقة البحثية
مجموعة بيانات الترميز متعدد الوسائط (MCD) هي مجموعة بيانات واسعة النطاق اقترحتها شركة مايكروسوفت للأبحاث وجامعة بكين وجامعة العلوم والتكنولوجيا الجنوبية وتم إصدارها في عام 2025. نتائج الورقة ذات الصلة هي "VisCodex: توليد كود متعدد الوسائط موحد عبر دمج نماذج الرؤية والترميز".
تحتوي مجموعة البيانات على ما مجموعه حوالي 598000 عينة/زوج عالي الجودة، منظمة بتنسيق يتبع التعليمات، وتغطي وسائط إدخال متعددة (نص، صور، كود) ووسائط إخراج (كود، إجابات، تفسيرات)، وهي مناسبة لمهام فهم الكود متعدد الوسائط وتوليده.
تتضمن البيانات ما يلي:
- كود HTML المعزز (HTML): حوالي 200000 زوج من الكود-لقطة الشاشة، مع التركيز على التأثيرات المرئية والتحسين الهيكلي.
- المخطط: حوالي 210,000 زوجًا من الصور والرموز لإعادة إنتاج الصورة إلى الرمز.
- الأسئلة والأجوبة (QA): حوالي 59000 زوجًا من الكود والسؤال والإجابة، حيث تتركز الأسئلة والأجوبة حول الكود.
- الخوارزمية: حوالي 129000 مشكلة في ترميز الخوارزمية وعينات تتبع التعليمات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.