Command Palette
Search for a command to run...
GroundingME: كشف الفجوة المرتبطة بالربط البصري في MLLMs من خلال التقييم متعدد الأبعاد
GroundingME: كشف الفجوة المرتبطة بالربط البصري في MLLMs من خلال التقييم متعدد الأبعاد
Abstract
التموضع البصري، وهو تحديد مواقع الكائنات بناءً على وصفات لغوية طبيعية، يُمثّل جسرًا حاسمًا بين فهم اللغة والرؤية. وعلى الرغم من تحقيق النماذج الكبيرة متعددة الوسائط للغة (MLLMs) نتائج مبهرة في المعايير الحالية، تظل هناك مسألة جوهرية معلقة: هل يمكن للنماذج MLLMs حقًا تموضع اللغة في الرؤية بمستوى من الذكاء البشري، أم أنها مجرد تطابق لأنماط في مجموعات بيانات مبسطة؟ تعجز المعايير الحالية عن التقاط التعقيد الحقيقي للعالم الحقيقي، حيث يستطيع البشر بسهولة التفاعل مع الإشارات الغامضة ومعرفة متى يكون التموضع مستحيلًا. ولتقييم صارم لقدرات MLLMs الحقيقية، نقدّم GroundingME، وهي معيار يتحدى النماذج بشكل منهجي عبر أربع جوانب حاسمة: (1) التمييز، حيث تميّز بين كائنات شبه متطابقة؛ (2) الفضائي، حيث يفهم النموذج الوصفات المعقدة للعلاقات المكانية؛ (3) المحدودية، حيث يتعامل مع الكائنات المُغطاة أو الصغيرة جدًا؛ و(4) الرفض، حيث يُدرك الاستفسارات غير القابلة للتموضع. من خلال جمع دقيق يجمع بين التوليد الآلي والتحقق البشري، ننشئ 1005 مثالًا صعبًا تعكس تعقيد العالم الحقيقي. وعند تقييم 25 نموذجًا متطورًا من MLLMs، كشفت النتائج عن فجوة كبيرة في الكفاءة: أفضل نموذج حقق دقة فقط 45.1٪، بينما بلغت نسبة معظم النماذج صفرًا في مهام الرفض، حيث تُخرّج الكائنات بشكل آلي بدلاً من الاعتراف بعدم وجودها، مما يثير مخاوف جسيمة بشأن السلامة عند التوظيف. نستعرض استراتيجيتين لتحسين الأداء: (1) التوسع في وقت الاختبار، حيث يتم اختيار أفضل استجابة بناءً على مسار التفكير، مما يحسن التموضع المعقد بنسبة تصل إلى 2.9٪؛ و(2) التدريب على مزيج البيانات، الذي يعلّم النماذج تمييز الاستفسارات غير القابلة للتموضع، مما يرفع دقة الرفض من صفر إلى 27.9٪. وبالتالي، يُعد GroundingME أداة تشخيصية تكشف عن القيود الحالية في نماذج MLLMs، كما يُقدّم خارطة طريق نحو التموضع البصري على مستوى الإنسان.