Command Palette
Search for a command to run...
مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME
GroundingME هي مجموعة بيانات تقييم مرجعية بصرية لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، وقد أصدرتها جامعة تسينغهوا عام 2025 بالتعاون مع شركة شاومي وجامعة هونغ كونغ، إلى جانب مؤسسات أخرى. وتشمل الأبحاث ذات الصلة... GroundingME: الكشف عن فجوة التأريض البصري في برامج التعلم متعدد اللغات من خلال التقييم متعدد الأبعادالهدف هو تقييم قدرة النموذج بشكل منهجي على رسم خريطة دقيقة للغة الطبيعية على الأهداف المرئية في سيناريوهات معقدة في العالم الحقيقي، مع إيلاء اهتمام خاص للفهم وأداء السلامة في المواقف التي تنطوي على مراجع غامضة، وعلاقات مكانية معقدة، وأهداف صغيرة، وحجب، وعدم وجود مرجعية.
تحتوي هذه المجموعة من البيانات على 1005 عينة تقييم. تم الحصول على الصور من مجموعتي بيانات عاليتي الجودة، SA-1B وHR-Bench، واستُخدمت الصور الأصلية فقط لبناء المهام لتجنب تلوث البيانات. تغطي العينات أربع فئات مهام رئيسية: التمييز المرجعي (204 عينات، 20.31 TP3T)، وفهم العلاقات المكانية (300 عينة، 29.91 TP3T)، ومشاهد الرؤية المحدودة (300 عينة، 29.91 TP3T)، ومهمة الرفض غير المرجعي (201 عينة، 20.01 TP3T)، مقسمة بدورها إلى 12 مهمة فرعية ثانوية بتوزيع متوازن. تتضمن مجموعة البيانات 241 فئة من الكائنات الواقعية. يوجد عدد كبير من الكائنات من نفس الفئة في الصورة الواحدة، وعادةً ما تشغل مثيلات الكائنات نسبة صغيرة من الصورة. طول أوصاف اللغة أطول بكثير من مجموعات البيانات المرجعية الموجودة، مما يزيد بشكل كبير من صعوبة مهام المرجعية البصرية من جوانب متعددة.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.