Seq-monkey Ensemble De Données Open Source Sequence Monkey 1.0
Date
Taille
URL de publication
Catégories
Sequence Monkey est un modèle de langage à grande échelle fourni par Mobvoi.L'ensemble de données Sequence Monkey est un ensemble de données utilisé pour former le modèle Sequence Monkey. Une partie de l’ensemble de données est désormais ouverte au public.
La version 1.0 de l'ensemble de données couvre les domaines suivants : corpus de textes généraux chinois, corpus de traductions de poésie ancienne et corpus de génération de textes. Parmi eux, le corpus de textes généraux chinois comprend 13 millions de données extraites de l'ensemble d'entraînement Sequence Monkey et est ouvert au public. L'ensemble de données open source de traduction de poésie ancienne est un ensemble de données de traductions de textes anciens et modernes, avec 680 000 poèmes ouverts au public. L'ensemble de données de réglage fin de la génération de texte fournit 5 000 données de questions-réponses ouvertes, qui peuvent être utilisées pour la détection d'erreurs de mots, la correction d'erreurs de mots et les tâches de polissage de texte.