HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

Date

منذ 4 ساعات

Organization

جامعة هونغ كونغ
جامعة تسينغهوا
شاومي

Paper URL

2512.17495

License

Other

GroundingME هي مجموعة بيانات تقييم مرجعية بصرية لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، وقد أصدرتها جامعة تسينغهوا عام 2025 بالتعاون مع شركة شاومي وجامعة هونغ كونغ، إلى جانب مؤسسات أخرى. وتشمل الأبحاث ذات الصلة... GroundingME: الكشف عن فجوة التأريض البصري في برامج التعلم متعدد اللغات من خلال التقييم متعدد الأبعادالهدف هو تقييم قدرة النموذج بشكل منهجي على رسم خريطة دقيقة للغة الطبيعية على الأهداف المرئية في سيناريوهات معقدة في العالم الحقيقي، مع إيلاء اهتمام خاص للفهم وأداء السلامة في المواقف التي تنطوي على مراجع غامضة، وعلاقات مكانية معقدة، وأهداف صغيرة، وحجب، وعدم وجود مرجعية.

تحتوي هذه المجموعة من البيانات على 1005 عينة تقييم. تم الحصول على الصور من مجموعتي بيانات عاليتي الجودة، SA-1B وHR-Bench، واستُخدمت الصور الأصلية فقط لبناء المهام لتجنب تلوث البيانات. تغطي العينات أربع فئات مهام رئيسية: التمييز المرجعي (204 عينات، 20.31 TP3T)، وفهم العلاقات المكانية (300 عينة، 29.91 TP3T)، ومشاهد الرؤية المحدودة (300 عينة، 29.91 TP3T)، ومهمة الرفض غير المرجعي (201 عينة، 20.01 TP3T)، مقسمة بدورها إلى 12 مهمة فرعية ثانوية بتوزيع متوازن. تتضمن مجموعة البيانات 241 فئة من الكائنات الواقعية. يوجد عدد كبير من الكائنات من نفس الفئة في الصورة الواحدة، وعادةً ما تشغل مثيلات الكائنات نسبة صغيرة من الصورة. طول أوصاف اللغة أطول بكثير من مجموعات البيانات المرجعية الموجودة، مما يزيد بشكل كبير من صعوبة مهام المرجعية البصرية من جوانب متعددة.

مثال لمجموعة البيانات

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp