التاريخ

منذ 5 أشهر

المؤسسة

رابط الورقة البحثية

2512.17495

الترخيص

Other

الوسوم

LLM

متعدد الوسائط

معالجة اللغة الطبيعية

GroundingME هي مجموعة بيانات تقييم مرجعية بصرية لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، وقد أصدرتها جامعة تسينغهوا عام 2025 بالتعاون مع شركة شاومي وجامعة هونغ كونغ، إلى جانب مؤسسات أخرى. وتشمل الأبحاث ذات الصلة... GroundingME: الكشف عن فجوة التأريض البصري في برامج التعلم متعدد اللغات من خلال التقييم متعدد الأبعادالهدف هو تقييم قدرة النموذج بشكل منهجي على رسم خريطة دقيقة للغة الطبيعية على الأهداف المرئية في سيناريوهات معقدة في العالم الحقيقي، مع إيلاء اهتمام خاص للفهم وأداء السلامة في المواقف التي تنطوي على مراجع غامضة، وعلاقات مكانية معقدة، وأهداف صغيرة، وحجب، وعدم وجود مرجعية. تحتوي هذه المجموعة من البيانات على 1005 عينة تقييم. تم الحصول على الصور من مجموعتي بيانات عاليتي الجودة، SA-1B وHR-Bench، واستُخدمت الصور الأصلية فقط لبناء المهام لتجنب تلوث البيانات. تغطي العينات أربع فئات مهام رئيسية: التمييز المرجعي (204 عينات، 20.31 TP3T)، وفهم العلاقات المكانية (300 عينة، 29.91 TP3T)، ومشاهد الرؤية المحدودة (300 عينة، 29.91 TP3T)، ومهمة الرفض غير المرجعي (201 عينة، 20.01 TP3T)، مقسمة بدورها إلى 12 مهمة فرعية ثانوية بتوزيع متوازن. تتضمن مجموعة البيانات 241 فئة من الكائنات الواقعية. يوجد عدد كبير من الكائنات من نفس الفئة في الصورة الواحدة، وعادةً ما تشغل مثيلات الكائنات نسبة صغيرة من الصورة. طول أوصاف اللغة أطول بكثير من مجموعات البيانات المرجعية الموجودة، مما يزيد بشكل كبير من صعوبة مهام المرجعية البصرية من جوانب متعددة.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار