HyperAIHyperAI

Command Palette

Search for a command to run...

تقييم مفتوح النهاية للنماذج الرؤية-اللغة باستخدام مجموعات بيانات التصنيف وهرمتها الدلالية

Simon Ging María A. Bravo Thomas Brox

الملخص

تقييم نماذج اللغة والرؤية المولدة للنصوص هو جهد محفوف بالتحدي ولكنه ضروري. من خلال معالجة قيود مقاييس الأداء الحالية لأسئلة الرؤية البصرية (VQA) واقتراح مناهج تقييم مبتكرة، يسعى بحثنا إلى تعزيز فهمنا لقدرات هذه النماذج. نقترح مقاسًا جديدًا لأسئلة الرؤية البصرية يستند إلى مجموعات بيانات تصنيف بصرية مشهورة، مما يسمح بتقييم دقيق لنماذج اللغة والرؤية المولدة للنصوص ومقارنتها بنماذج اللغة والرؤية التمييزية. لتحسين تقييم الإجابات العامة في مهام التصنيف الدقيق، نقترح استخدام الهرم الدلالي لمجال العلامات لطرح أسئلة تابعة تُولَّد تلقائيًا عن الفئة الحقيقية. أخيرًا، نقارن بين المقاييس التقليدية للمعالجة اللغوية الطبيعية (NLP) ومقاييس النماذج اللغوية الكبيرة (LLM) فيما يتعلق بمهمة تقييم التنبؤات النموذجية المعطاة الإجابات الحقيقية. نقوم بدراستِنا للتقييم البشري على أساسها نتخذ قرارنا بشأن المقاس النهائي. نطبق مقاسنا على مجموعة من نماذج اللغة والرؤية ونظهر مقارنة مفصلة لقدراتها في تصنيف الأشياء والأفعال والسمات. تسهم إسهاماتنا في وضع الأساس لتقييمات أكثر دقة ومعنى، مما يسهل التقدم المستهدف في مجال مثير مثل نمذجة اللغة والرؤية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp