HyperAIHyperAI
منذ 11 أيام

SelfEval: الاستفادة من الطبيعة التمييزية للنماذج التوليدية لتقييم الأداء

Sai Saketh Rambhatla, Ishan Misra
SelfEval: الاستفادة من الطبيعة التمييزية للنماذج التوليدية لتقييم الأداء
الملخص

نقدّم طريقة آلية لتقييم تطابق النص مع الصورة في نماذج التوليد التكراري النصية-الصورية باستخدام مجموعات بيانات صور ونصوص قياسية لتمييز التعرف عليها. تُسمّى هذه الطريقة "SelfEval"، وتستخدم النموذج التوليدي لحساب احتمالية ظهور صور حقيقية بناءً على مطالبات نصية، ويمكن استخدام هذا الاحتمال لأداء مهام التعرف باستخدام النموذج التوليدي نفسه. قمنا بتقييم النماذج التوليدية على مجموعات بيانات قياسية أُنشئت لتعلم التمييز متعدد الوسائط (نص-صورة)، وقمنا بتقييم جوانب دقيقة من أدائها: ربط السمات، والتعرف على الألوان، والعد، والتعرف على الأشكال، والفهم المكاني. تعتمد المقاييس الآلية الحالية على نموذج مُدرّب مسبقًا خارجيًا مثل CLIP (النماذج اللغوية والبصرية) أو النماذج اللغوية الكبيرة (LLMs)، وهي حساسة جدًا للنموذج المُدرّب مسبقًا بالتحديد وقيوده. تجنبت SelfEval هذه المشكلات، وبأفضل ما نعرف، هي أول مقياس آلي يُظهر درجة عالية من التوافق في قياس الولاء للنص مقارنة بالتقييمات البشرية القياسية الذهبيّة عبر عدة نماذج توليدية، وبيئات تقييم، وأدوات تقييم. كما كشفت SelfEval أن النماذج التوليدية تُظهر أداءً تنافسيًا في مهام صعبة مثل تقييم صور Winoground مقارنة بالنماذج التمييزية. نأمل أن تُمكّن SelfEval من تقييم آلي سهل وموثوق للنماذج التكرارية.

SelfEval: الاستفادة من الطبيعة التمييزية للنماذج التوليدية لتقييم الأداء | أحدث الأوراق البحثية | HyperAI