ShareGPT 90.000 Chinesischer Und Englischer Zweisprachiger Mensch-Maschine-Frage-Antwort-Datensatz
Datum
vor einem Jahr
Größe
730.58 MB
Veröffentlichungs-URL
ShareGPT-Chinese-English-90k ist ein hochwertiger Mensch-Maschine-Frage-Antwort-Datensatz parallel in Chinesisch und Englisch, der Benutzerfragen in realen und komplexen Szenarien abdeckt. Damit können hochwertige Konversationsmodelle trainiert werden (die bei der Befehlsverteilung robuster sind als Daten, die durch wiederholtes Aufrufen von API-Schnittstellen zur Simulation maschinengenerierter Fragen und Antworten generiert werden).
Die Merkmale dieses Datensatzes sind:
- Gleichzeitig bietet es chinesische und englische Parallelvergleichskorpora mit genau derselben Bedeutung, die für das Training zweisprachiger Dialogmodelle verwendet werden können.
- Bei allen Fragen handelt es sich nicht um künstlich erfundene oder durch API-Abfragen (wie etwa Moss) erstellte Fake-Daten, sondern sie entsprechen eher der Befehlsverteilung und Fragestellung realer Benutzerszenarien.
- Der Sharegpt-Datensatz wird durch spontanes Teilen durch Internetnutzer gesammelt, was einer sehr natürlichen Filterung (durch den menschlichen Verstand) entspricht, bei der die meisten Gespräche mit schlechten Erfahrungen herausgefiltert werden.
ShareGPT-Chinese-English-90k.torrent
Seeding 1Herunterladen 1Abgeschlossen 186Gesamtdownloads 525