HyperAI超神经

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

FRAMES-Benchmark ist ein umfassender Evaluierungsdatensatz, der 2024 von Google veröffentlicht wurde und darauf abzielt, die Fähigkeiten von Retrieval-Augmented Generation (RAG)-Systemen hinsichtlich Faktizität, Abrufgenauigkeit und Argumentation zu testen. Die relevanten Papierergebnisse sindFakt, Abruf und Grund: Eine einheitliche Bewertung der Retrieval-Augmented GenerationDer Datensatz enthält 824 anspruchsvolle Multi-Hop-Fragen, für die Informationen aus zwei bis 15 Wikipedia-Artikeln abgerufen werden müssen. Die Fragen decken Themen wie Geschichte, Sport, Wissenschaft, Tiere, Gesundheit und mehr ab. Jede Frage ist mit der Art der Argumentation gekennzeichnet, z. B. numerisch, tabellarisch, mit mehreren Einschränkungen, zeitlich und nachträglich. Der Datensatz enthält außerdem die goldene Antwort und den entsprechenden Wikipedia-Artikel zu jeder Frage.

Zu den wichtigsten Merkmalen des FRAMES-Datensatzes gehört das Testen von End-to-End-RAG-Funktionen, das die Integration von Informationen aus mehreren Quellen erfordert, komplexe Schlussfolgerungen und zeitliche Disambiguierung beinhaltet und so konzipiert ist, dass er eine Herausforderung für modernste Sprachmodelle darstellt. Der Datensatz kann verwendet werden, um die Leistung von RAG-Systemen zu bewerten, die Faktizität und die Argumentationsfähigkeiten von Sprachmodellen zu vergleichen und Multi-Hop-Abrufstrategien zu entwickeln und zu testen.

FRAMES - Benchmark-Abrufverbesserungs-Generierungstestsatz

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.