Command Palette
Search for a command to run...
تقييم مفتوح النهاية للنماذج الرؤية-اللغة باستخدام مجموعات بيانات التصنيف وهرمتها الدلالية
تقييم مفتوح النهاية للنماذج الرؤية-اللغة باستخدام مجموعات بيانات التصنيف وهرمتها الدلالية
Simon Ging María A. Bravo Thomas Brox
الملخص
تقييم نماذج اللغة والرؤية المولدة للنصوص هو جهد محفوف بالتحدي ولكنه ضروري. من خلال معالجة قيود مقاييس الأداء الحالية لأسئلة الرؤية البصرية (VQA) واقتراح مناهج تقييم مبتكرة، يسعى بحثنا إلى تعزيز فهمنا لقدرات هذه النماذج. نقترح مقاسًا جديدًا لأسئلة الرؤية البصرية يستند إلى مجموعات بيانات تصنيف بصرية مشهورة، مما يسمح بتقييم دقيق لنماذج اللغة والرؤية المولدة للنصوص ومقارنتها بنماذج اللغة والرؤية التمييزية. لتحسين تقييم الإجابات العامة في مهام التصنيف الدقيق، نقترح استخدام الهرم الدلالي لمجال العلامات لطرح أسئلة تابعة تُولَّد تلقائيًا عن الفئة الحقيقية. أخيرًا، نقارن بين المقاييس التقليدية للمعالجة اللغوية الطبيعية (NLP) ومقاييس النماذج اللغوية الكبيرة (LLM) فيما يتعلق بمهمة تقييم التنبؤات النموذجية المعطاة الإجابات الحقيقية. نقوم بدراستِنا للتقييم البشري على أساسها نتخذ قرارنا بشأن المقاس النهائي. نطبق مقاسنا على مجموعة من نماذج اللغة والرؤية ونظهر مقارنة مفصلة لقدراتها في تصنيف الأشياء والأفعال والسمات. تسهم إسهاماتنا في وضع الأساس لتقييمات أكثر دقة ومعنى، مما يسهل التقدم المستهدف في مجال مثير مثل نمذجة اللغة والرؤية.