HyperAIHyperAI
منذ 2 أشهر

تقييم مفتوح النهاية للنماذج الرؤية-اللغة باستخدام مجموعات بيانات التصنيف وهرمتها الدلالية

Ging, Simon ; Bravo, María A. ; Brox, Thomas
تقييم مفتوح النهاية للنماذج الرؤية-اللغة باستخدام مجموعات بيانات التصنيف وهرمتها الدلالية
الملخص

تقييم نماذج اللغة والرؤية المولدة للنصوص هو جهد محفوف بالتحدي ولكنه ضروري. من خلال معالجة قيود مقاييس الأداء الحالية لأسئلة الرؤية البصرية (VQA) واقتراح مناهج تقييم مبتكرة، يسعى بحثنا إلى تعزيز فهمنا لقدرات هذه النماذج. نقترح مقاسًا جديدًا لأسئلة الرؤية البصرية يستند إلى مجموعات بيانات تصنيف بصرية مشهورة، مما يسمح بتقييم دقيق لنماذج اللغة والرؤية المولدة للنصوص ومقارنتها بنماذج اللغة والرؤية التمييزية. لتحسين تقييم الإجابات العامة في مهام التصنيف الدقيق، نقترح استخدام الهرم الدلالي لمجال العلامات لطرح أسئلة تابعة تُولَّد تلقائيًا عن الفئة الحقيقية. أخيرًا، نقارن بين المقاييس التقليدية للمعالجة اللغوية الطبيعية (NLP) ومقاييس النماذج اللغوية الكبيرة (LLM) فيما يتعلق بمهمة تقييم التنبؤات النموذجية المعطاة الإجابات الحقيقية. نقوم بدراستِنا للتقييم البشري على أساسها نتخذ قرارنا بشأن المقاس النهائي. نطبق مقاسنا على مجموعة من نماذج اللغة والرؤية ونظهر مقارنة مفصلة لقدراتها في تصنيف الأشياء والأفعال والسمات. تسهم إسهاماتنا في وضع الأساس لتقييمات أكثر دقة ومعنى، مما يسهل التقدم المستهدف في مجال مثير مثل نمذجة اللغة والرؤية.

تقييم مفتوح النهاية للنماذج الرؤية-اللغة باستخدام مجموعات بيانات التصنيف وهرمتها الدلالية | أحدث الأوراق البحثية | HyperAI