HyperAIHyperAI

Command Palette

Search for a command to run...

FRAMES - Benchmark-Abrufverbesserungs-Generierungstestsatz

Datum

vor einem Jahr

Organisation

Google

Paper-URL

arxiv.org

Treten Sie der Discord-Community bei

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

FRAMES-Benchmark ist ein umfassender Evaluierungsdatensatz, der 2024 von Google veröffentlicht wurde und darauf abzielt, die Fähigkeiten von Retrieval-Augmented Generation (RAG)-Systemen hinsichtlich Faktizität, Abrufgenauigkeit und Argumentation zu testen. Die relevanten Papierergebnisse sindFakt, Abruf und Grund: Eine einheitliche Bewertung der Retrieval-Augmented GenerationDer Datensatz enthält 824 anspruchsvolle Multi-Hop-Fragen, für die Informationen aus zwei bis 15 Wikipedia-Artikeln abgerufen werden müssen. Die Fragen decken Themen wie Geschichte, Sport, Wissenschaft, Tiere, Gesundheit und mehr ab. Jede Frage ist mit der Art der Argumentation gekennzeichnet, z. B. numerisch, tabellarisch, mit mehreren Einschränkungen, zeitlich und nachträglich. Der Datensatz enthält außerdem die goldene Antwort und den entsprechenden Wikipedia-Artikel zu jeder Frage.

Zu den wichtigsten Merkmalen des FRAMES-Datensatzes gehört das Testen von End-to-End-RAG-Funktionen, das die Integration von Informationen aus mehreren Quellen erfordert, komplexe Schlussfolgerungen und zeitliche Disambiguierung beinhaltet und so konzipiert ist, dass er eine Herausforderung für modernste Sprachmodelle darstellt. Der Datensatz kann verwendet werden, um die Leistung von RAG-Systemen zu bewerten, die Faktizität und die Argumentationsfähigkeiten von Sprachmodellen zu vergleichen und Multi-Hop-Abrufstrategien zu entwickeln und zu testen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp