HyperAIHyperAI

Command Palette

Search for a command to run...

لوحة تحكم FACTS: معيار شامل لموثوقية النماذج اللغوية الكبيرة

الملخص

نقدّم لوحة التصنيف FACTS، وهي مجموعة من لوحة التصنيف الإلكترونية والاختبارات المرتبطة بها، والتي تقيّم بشكل شامل قدرة النماذج اللغوية على إنتاج نصوص دقيقة من حيث الحقائق عبر سيناريوهات متنوعة. توفر المجموعة قياسًا شاملاً للدقة الحقيقية من خلال دمج أداء النماذج على أربع لوحة تصنيف فرعية مختلفة: (1) FACTS متعدد الوسائط، التي تقيس دقة الاستجابات للأسئلة القائمة على الصور؛ (2) FACTS المعلمية، التي تقيّم معرفة النموذج بالعالم من خلال الإجابة على أسئلة واقعية مغلقة المعرفة باستخدام المعلمات الداخلية للنموذج؛ (3) FACTS البحث، التي تقيّم الدقة الحقيقية في السيناريوهات التي تتطلب البحث، حيث يجب على النموذج استخدام واجهة برمجة تطبيقات للبحث؛ و(4) FACTS التأصيل (الإصدار 2)، التي تقيّم ما إذا كانت الاستجابات الطويلة مبنية على المستندات المقدمة، مع تحسينات كبيرة في نماذج المُقيّمين. تستخدم كل لوحة تصنيف فرعية نماذج مُقيّمة آلية لتقييم استجابات النماذج، ويُحسب التصنيف النهائي للمجموعة كمتوسط للعناصر الأربعة، بهدف توفير تقييم قوي ومتوازن لأداء النموذج العام في الدقة الحقيقية. ستُحافظ على مجموعة لوحة التصنيف FACTS بشكل نشط، وتشمل تقسيمات عامة وخصوصية لتمكين المشاركة الخارجية مع الحفاظ على سلامة النظام. يمكن الوصول إليها عبر الرابط: https://www.kaggle.com/benchmarks/google/facts.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp