Seq-monkey Sequence Monkey Open Source-Datensatz 1.0
Datum
Größe
Veröffentlichungs-URL
Kategorien
Sequence Monkey ist ein groß angelegtes Sprachmodell von Mobvoi.Der Sequence Monkey-Datensatz ist ein Datensatz, der zum Trainieren des Sequence Monkey-Modells verwendet wird. Ein Teil des Datensatzes ist jetzt öffentlich zugänglich.
Die Version 1.0 des Datensatzes deckt die folgenden Bereiche ab: Allgemeines chinesisches Textkorpus, Übersetzungskorpus antiker Poesie und Textgenerierungskorpus. Darunter befindet sich das chinesische allgemeine Textkorpus mit 13 Millionen Daten, die aus dem Trainingsset von Sequence Monkey extrahiert wurden und öffentlich zugänglich sind. Der Open-Source-Datensatz zur Übersetzung antiker Gedichte ist ein Datensatz antiker und moderner Textübersetzungen mit 680.000 öffentlich zugänglichen Gedichten. Der Datensatz zur Feinabstimmung der Textgenerierung enthält 5.000 offene Frage-Antwort-Daten, die zur Erkennung und Korrektur von Wortfehlern sowie zur Textverfeinerung verwendet werden können.