مجموعة بيانات استدلال الصور النصية Zebra-CoT
التاريخ
منذ 3 أيام
رابط النشر
العلامات
Zebra-CoT هي مجموعة بيانات استدلال لغوي بصري تم إصدارها بشكل مشترك من قبل جامعة كولومبيا وجامعة ماريلاند وجامعة جنوب كاليفورنيا وجامعة نيويورك في عام 2025. نتائج الورقة ذات الصلة هي "Zebra-CoT: مجموعة بيانات لتحليل اللغة البصرية المتداخلة"، والذي يهدف إلى تعزيز النموذج لفهم العلاقة المنطقية بين الصور والنصوص بشكل أفضل، ويُستخدم على نطاق واسع في الإجابة على الأسئلة المرئية وتوليد وصف الصور وغيرها من المجالات للمساعدة في تحسين القدرة على التفكير والدقة.
تحتوي مجموعة البيانات على 182,384 عينة تغطي أربع فئات رئيسية: التفكير العلمي، التفكير البصري ثنائي الأبعاد، التفكير البصري ثلاثي الأبعاد، وألعاب المنطق البصري والاستراتيجية. تحتوي هذه العينات على مسارات تفكير نصية وصورية مترابطة ومتماسكة منطقيًا.
هيكل مجموعة البيانات:
- وصف المشكلة: وصف نصي للمشكلة.
- صورة السؤال: اعتمادًا على طبيعة السؤال، قد تكون مصحوبة بصور صفرية أو أكثر.
- صور الاستدلال: هناك على الأقل وسيلة بصرية واحدة أو أكثر تدعم خطوات الاستدلال الوسيطة في عملية حل المشكلات.
- مسار التفكير النصي: سلسلة من التأملات النصية والرسومات المرئية المقابلة أو العناصر التخطيطية.
- الجواب النهائي : حل المشكلة .
