Command Palette
Search for a command to run...
Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models
Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models
Zusammenfassung
Wir stellen den FACTS Leaderboard vor, eine Online-Plattform mit zugehörigem Satz an Benchmarks, die die Fähigkeit von Sprachmodellen umfassend evaluiert, faktisch korrekte Texte in vielfältigen Szenarien zu generieren. Die Suite bietet eine ganzheitliche Messung der Faktualität, indem sie die Leistung der Modelle auf vier unterschiedlichen Unter-Leaderboards zusammenfasst: (1) FACTS Multimodal, das die Faktualität von Antworten auf bildbasierte Fragen misst; (2) FACTS Parametric, das das Weltwissen von Modellen durch die Beantwortung von Closed-Book-Faktoid-Fragen anhand interner Parameter bewertet; (3) FACTS Search, das die Faktualität in informationsuchbasierten Szenarien prüft, bei denen das Modell eine Such-API nutzen muss; und (4) FACTS Grounding (v2), das überprüft, ob längere Textantworten auf bereitgestellten Dokumenten fundiert sind, und dabei erheblich verbesserte Urteilsmodelle verwendet. Jedes Unter-Leaderboard nutzt automatisierte Urteilsmodelle zur Bewertung der Modellantworten, und die Gesamtscore der Suite ergibt sich als Durchschnitt der vier Komponenten, um eine robuste und ausgewogene Bewertung der Gesamtfaktualität eines Modells zu ermöglichen. Der FACTS Leaderboard Suite wird kontinuierlich gepflegt und enthält sowohl öffentliche als auch private Datensplits, um externe Teilnahme zu ermöglichen, gleichzeitig aber die Integrität der Bewertung zu gewährleisten. Die Plattform ist unter https://www.kaggle.com/benchmarks/google/facts verfügbar.