HyperAIHyperAI

Command Palette

Search for a command to run...

Le classement FACTS : une référence complète pour la facticité des grands modèles linguistiques

Résumé

Nous présentons le classement FACTS, une suite de classements en ligne assortie d’un ensemble de benchmarks visant à évaluer de manière exhaustive la capacité des modèles linguistiques à générer des textes factuellement exacts dans divers scénarios. La suite propose une mesure globale de la facticité en regroupant les performances des modèles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui évalue la facticité des réponses aux questions basées sur des images ; (2) FACTS Paramétrique, qui mesure le savoir du monde des modèles en répondant à des questions factuelles à l’aide uniquement de leurs paramètres internes (sans accès à des données externes) ; (3) FACTS Recherche, qui évalue la facticité dans des scénarios d’information, où le modèle doit utiliser une API de recherche ; et (4) FACTS Ancrage (v2), qui évalue si les réponses longues sont bien ancrées dans des documents fournis, avec des modèles d’évaluation (judge models) nettement améliorés. Chaque sous-classement utilise des modèles d’évaluation automatisés pour noter les réponses des modèles, et le score global de la suite est la moyenne des quatre composantes, conçu pour offrir une évaluation robuste et équilibrée de la facticité globale d’un modèle. La suite du classement FACTS sera activement maintenue, incluant des ensembles publics et privés afin de permettre la participation extérieure tout en préservant son intégrité. Elle est accessible à l’adresse suivante : https://www.kaggle.com/benchmarks/google/facts.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp