HyperAIHyperAI

Command Palette

Search for a command to run...

Console

لوحة تصنيف FACTS: معيار شامل لموثوقية النماذج اللغوية الكبيرة

Abstract

نُقدِّم "مُصنَّف FACTS"، وهو مجموعة منصّة تقييم عبر الإنترنت ومرفقة ببنية معايير شاملة تُقيِّم بشكل متكامل قدرة النماذج اللغوية على إنتاج نصوص دقيقة من حيث الحقائق عبر سيناريوهات متنوعة. توفر المجموعة قياسًا شاملاً لدقة الحقائق من خلال تجميع أداء النماذج على أربع لوحات تقييم فرعية متميزة: (1) FACTS متعددة الوسائط، التي تقيس دقة الإجابات على الأسئلة القائمة على الصور؛ (2) FACTS المُعلَّمة، التي تقيس معرفة النموذج بالعالم من خلال الإجابة على أسئلة واقعية مغلقة المعرفة باستخدام المعلمات الداخلية للنموذج؛ (3) FACTS البحث، التي تُقيِّم دقة الحقائق في السيناريوهات التي تتطلب البحث، حيث يجب على النموذج استخدام واجهة برمجة تطبيقات (API) للبحث؛ و(4) FACTS التأصيل (النسخة 2)، التي تقيس ما إذا كانت الإجابات الطويلة مبنية على الوثائق المقدمة، مع تحسينات كبيرة في نماذج المُقيِّمين. تستخدم كل لوحة تقييم فرعية نماذج مُقيِّمة آلية لتقييم إجابات النماذج، ويُحسب التقييم النهائي للمجموعة كمتوسط للعناصر الأربع، بهدف توفير تقييم قوي ومتوازن لأداء النموذج الشامل في دقة الحقائق. ستُحافظ المجموعة على تطويرها المستمر، وتتضمن تقسيمات عامة وخصوصية لتمكين المشاركة الخارجية مع الحفاظ على سلامة النظام. يمكن الوصول إليها عبر الرابط: https://www.kaggle.com/benchmarks/google/facts .


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp