vor 2 Monaten

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Zusammenfassung

Wir stellen den FACTS Leaderboard vor, eine Online-Plattform mit zugehörigem Satz an Benchmarks, die die Fähigkeit von Sprachmodellen umfassend evaluiert, faktisch korrekte Texte in vielfältigen Szenarien zu generieren. Die Suite bietet eine ganzheitliche Messung der Faktualität, indem sie die Leistung der Modelle auf vier unterschiedlichen Unter-Leaderboards zusammenfasst: (1) FACTS Multimodal, das die Faktualität von Antworten auf bildbasierte Fragen misst; (2) FACTS Parametric, das das Weltwissen von Modellen durch die Beantwortung von Closed-Book-Faktoid-Fragen anhand interner Parameter bewertet; (3) FACTS Search, das die Faktualität in informationsuchbasierten Szenarien prüft, bei denen das Modell eine Such-API nutzen muss; und (4) FACTS Grounding (v2), das überprüft, ob längere Textantworten auf bereitgestellten Dokumenten fundiert sind, und dabei erheblich verbesserte Urteilsmodelle verwendet. Jedes Unter-Leaderboard nutzt automatisierte Urteilsmodelle zur Bewertung der Modellantworten, und die Gesamtscore der Suite ergibt sich als Durchschnitt der vier Komponenten, um eine robuste und ausgewogene Bewertung der Gesamtfaktualität eines Modells zu ermöglichen. Der FACTS Leaderboard Suite wird kontinuierlich gepflegt und enthält sowohl öffentliche als auch private Datensplits, um externe Teilnahme zu ermöglichen, gleichzeitig aber die Integrität der Bewertung zu gewährleisten. Die Plattform ist unter https://www.kaggle.com/benchmarks/google/facts verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Benchmarks

Retrieval-Augmented Generation

Visuelle Fragebeantwortung

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 2 Monaten

Benchmarks

Retrieval-Augmented Generation

Visuelle Fragebeantwortung

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas55 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas55 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Der FACTS Leaderboard: Ein umfassender Benchmark für die Faktengenauigkeit von Large Language Models

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas55 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas

Aileen Cheng Alon Jacovi Amir Globerson Ben Golan Charles Kwong Chris Alberti Connie Tao Eyal Ben-David Gaurav Singh Tomar Lukas Haas