HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Le classement FACTS : une référence complète pour la factualité des grands modèles linguistiques

Abstract

Nous présentons le classement FACTS, une suite de classements en ligne accompagnée d’un ensemble de benchmarks permettant d’évaluer de manière exhaustive la capacité des modèles linguistiques à générer du texte factuellement précis dans divers scénarios. Cette suite offre une mesure globale de la facticité en combinant les performances des modèles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui évalue la facticité des réponses aux questions basées sur des images ; (2) FACTS Paramétrique, qui mesure les connaissances mondiales des modèles en répondant à des questions factuelles à partir uniquement de leurs paramètres internes (sans accès à une base externe) ; (3) FACTS Recherche, qui évalue la facticité dans des scénarios d’information, où le modèle doit utiliser une API de recherche ; et (4) FACTS Ancrage (v2), qui évalue si les réponses longues sont bien ancrées dans des documents fournis, intégrant des modèles d’évaluation (judge models) considérablement améliorés. Chaque sous-classement utilise des modèles d’évaluation automatisés pour noter les réponses des modèles, et le score global de la suite est la moyenne des quatre composantes, conçu pour offrir une évaluation robuste et équilibrée de la facticité globale d’un modèle. La suite du classement FACTS sera régulièrement maintenue, incluant à la fois des partitions publiques et privées afin de permettre la participation externe tout en préservant l’intégrité du benchmark. Elle est disponible à l’adresse suivante : https://www.kaggle.com/benchmarks/google/facts .


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Le classement FACTS : une référence complète pour la factualité des grands modèles linguistiques | Papers | HyperAI