HyperAI

LongCite-45k-Datensatz Zur Feinverbesserung Großer Modelle

Datum

vor 8 Monaten

Größe

1.7 GB

Organisation

Tsinghua-Universität

Veröffentlichungs-URL

github.com

LongCite-45k ist ein Open-Source-Datensatz, der 2024 von der Tsinghua-Universität veröffentlicht wurde. Ziel ist es, die Glaubwürdigkeit und Überprüfbarkeit großer Sprachmodelle (LLMs) bei Fragen-Antwort-Aufgaben mit langen Texten zu verbessern. Die relevanten Papierergebnisse sindLongCite: Ermöglicht LLMs die Generierung detaillierter Zitate in der Langzeit-QA".

Der Datensatz enthält 44.600 hochwertige Frage-Antwort-Daten mit Zitaten auf Satzebene, unterstützt die Verarbeitung langer Texte mit einer maximalen Länge von 128.000 Token und ermöglicht es Benutzern, die Genauigkeit der Antworten des Modells durch die Generierung feinkörniger Zitate auf Satzebene zu überprüfen.

LongCite-45k.torrent
Seeding 1Herunterladen 1Abgeschlossen 73Gesamtdownloads 68
  • LongCite-45k/
    • README.md
      1.22 KB
    • README.txt
      2.45 KB
      • data/
        • LongCite-45k.zip
          1.7 GB