HyperAIHyperAI

Command Palette

Search for a command to run...

Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models

Zusammenfassung

Wir stellen den FACTS Leaderboard vor, eine Online-Plattform mit zugehörigem Satz an Benchmarks, die die Fähigkeit von Sprachmodellen umfassend evaluiert, faktisch korrekte Texte in vielfältigen Szenarien zu generieren. Die Suite bietet eine ganzheitliche Messung der Faktualität, indem sie die Leistung der Modelle auf vier unterschiedlichen Unter-Leaderboards zusammenfasst: (1) FACTS Multimodal, das die Faktualität von Antworten auf bildbasierte Fragen misst; (2) FACTS Parametric, das das Weltwissen von Modellen durch die Beantwortung von Closed-Book-Faktoid-Fragen anhand interner Parameter bewertet; (3) FACTS Search, das die Faktualität in informationsuchbasierten Szenarien prüft, bei denen das Modell eine Such-API nutzen muss; und (4) FACTS Grounding (v2), das überprüft, ob längere Textantworten auf bereitgestellten Dokumenten fundiert sind, und dabei erheblich verbesserte Urteilsmodelle verwendet. Jedes Unter-Leaderboard nutzt automatisierte Urteilsmodelle zur Bewertung der Modellantworten, und die Gesamtscore der Suite ergibt sich als Durchschnitt der vier Komponenten, um eine robuste und ausgewogene Bewertung der Gesamtfaktualität eines Modells zu ermöglichen. Der FACTS Leaderboard Suite wird kontinuierlich gepflegt und enthält sowohl öffentliche als auch private Datensplits, um externe Teilnahme zu ermöglichen, gleichzeitig aber die Integrität der Bewertung zu gewährleisten. Die Plattform ist unter https://www.kaggle.com/benchmarks/google/facts verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp