HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models

Abstract

Wir stellen den FACTS Leaderboard vor, eine Online-Plattform mit verbundenem Benchmarksatz, die die Fähigkeit von Sprachmodellen umfassend bewertet, faktisch korrekte Texte in vielfältigen Szenarien zu generieren. Die Suite bietet eine ganzheitliche Messung der Faktualität, indem sie die Leistung der Modelle auf vier unterschiedlichen Teil-Leaderboards zusammenfasst: (1) FACTS Multimodal, das die Faktualität von Antworten auf bildbasierte Fragen misst; (2) FACTS Parametric, das das Weltwissen von Modellen anhand von geschlossenen Buch-Faktenfragen beurteilt, die ausschließlich aus internen Parametern abgeleitet werden; (3) FACTS Search, das die Faktualität in informationsuchbasierten Szenarien bewertet, bei denen das Modell eine Such-API nutzen muss; und (4) FACTS Grounding (v2), das prüft, ob längere Textantworten auf bereitgestellten Dokumenten fundiert sind, und dabei erheblich verbesserte Urteilsmodelle verwendet. Jedes Teil-Leaderboard nutzt automatisierte Urteilsmodelle zur Bewertung der Modellantworten, und die Gesamtscore der Suite ergibt sich als Durchschnitt der vier Komponenten, um eine robuste und ausgewogene Einschätzung der Gesamtfaktualität eines Modells zu ermöglichen. Der FACTS Leaderboard-Suite wird kontinuierlich gepflegt und enthält sowohl öffentliche als auch private Datensplits, um externe Teilnahme zu ermöglichen, gleichzeitig aber die Integrität der Bewertung zu gewährleisten. Die Plattform ist unter https://www.kaggle.com/benchmarks/google/facts zugänglich.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models | Papers | HyperAI