Command Palette
Search for a command to run...
Le classement FACTS : une référence complète pour la facticité des grands modèles linguistiques
Le classement FACTS : une référence complète pour la facticité des grands modèles linguistiques
Résumé
Nous présentons le classement FACTS, une suite de classements en ligne assortie d’un ensemble de benchmarks visant à évaluer de manière exhaustive la capacité des modèles linguistiques à générer des textes factuellement exacts dans divers scénarios. La suite propose une mesure globale de la facticité en regroupant les performances des modèles sur quatre sous-classements distincts : (1) FACTS Multimodal, qui évalue la facticité des réponses aux questions basées sur des images ; (2) FACTS Paramétrique, qui mesure le savoir du monde des modèles en répondant à des questions factuelles à l’aide uniquement de leurs paramètres internes (sans accès à des données externes) ; (3) FACTS Recherche, qui évalue la facticité dans des scénarios d’information, où le modèle doit utiliser une API de recherche ; et (4) FACTS Ancrage (v2), qui évalue si les réponses longues sont bien ancrées dans des documents fournis, avec des modèles d’évaluation (judge models) nettement améliorés. Chaque sous-classement utilise des modèles d’évaluation automatisés pour noter les réponses des modèles, et le score global de la suite est la moyenne des quatre composantes, conçu pour offrir une évaluation robuste et équilibrée de la facticité globale d’un modèle. La suite du classement FACTS sera activement maintenue, incluant des ensembles publics et privés afin de permettre la participation extérieure tout en préservant son intégrité. Elle est accessible à l’adresse suivante : https://www.kaggle.com/benchmarks/google/facts.