لوحة تصنيف FACTS: معيار شامل لموثوقية النماذج اللغوية الكبيرة
لوحة تصنيف FACTS: معيار شامل لموثوقية النماذج اللغوية الكبيرة
Abstract
نُقدِّم "مُصنَّف FACTS"، وهو مجموعة منصّة تقييم عبر الإنترنت ومرفقة ببنية معايير شاملة تُقيِّم بشكل متكامل قدرة النماذج اللغوية على إنتاج نصوص دقيقة من حيث الحقائق عبر سيناريوهات متنوعة. توفر المجموعة قياسًا شاملاً لدقة الحقائق من خلال تجميع أداء النماذج على أربع لوحات تقييم فرعية متميزة: (1) FACTS متعددة الوسائط، التي تقيس دقة الإجابات على الأسئلة القائمة على الصور؛ (2) FACTS المُعلَّمة، التي تقيس معرفة النموذج بالعالم من خلال الإجابة على أسئلة واقعية مغلقة المعرفة باستخدام المعلمات الداخلية للنموذج؛ (3) FACTS البحث، التي تُقيِّم دقة الحقائق في السيناريوهات التي تتطلب البحث، حيث يجب على النموذج استخدام واجهة برمجة تطبيقات (API) للبحث؛ و(4) FACTS التأصيل (النسخة 2)، التي تقيس ما إذا كانت الإجابات الطويلة مبنية على الوثائق المقدمة، مع تحسينات كبيرة في نماذج المُقيِّمين. تستخدم كل لوحة تقييم فرعية نماذج مُقيِّمة آلية لتقييم إجابات النماذج، ويُحسب التقييم النهائي للمجموعة كمتوسط للعناصر الأربع، بهدف توفير تقييم قوي ومتوازن لأداء النموذج الشامل في دقة الحقائق. ستُحافظ المجموعة على تطويرها المستمر، وتتضمن تقسيمات عامة وخصوصية لتمكين المشاركة الخارجية مع الحفاظ على سلامة النظام. يمكن الوصول إليها عبر الرابط: https://www.kaggle.com/benchmarks/google/facts .
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.