Des Informations Solides ! Obtenez 20 Ensembles De Données Chinois LLM Populaires En Un Clic

L'article suivant est tiré d'OpenBayes Bayesian Computing, auteur Xiaobei
depuis ChatGPT Depuis son lancement,Le grand modèle linguistique (LLM) a fait sensation dans divers domaines grâce à sa capacité d'apprentissage exceptionnelle.La formation et le réglage de grands modèles ne peuvent être séparés du support de données de haute qualité et à grande échelle. Des ensembles de données soigneusement construits fournissent non seulement suffisamment de carburant pour les grands modèles, mais permettent également à ces derniers d'être appliqués et d'obtenir de meilleures performances dans les domaines verticaux.
Cet article trie certains ensembles de données publiques chinoises populaires adaptés à la formation et au réglage de grands modèles (classés par ordre alphabétique).Pour que tout le monde puisse le comprendre et l'utiliser.
Conseils utiles :
Tous les ensembles de données répertoriés dans cet article peuvent être utilisés directement dans la formation et le déploiement de modèles avec une saisie en un clic sur la plateforme OpenBayes.com.
Lien direct :
https://openbayes.com/console/public/datasets
1 Ape210K problèmes de mathématiques de niveau primaire chinois
* Agence émettrice :Laboratoire d'IA Yuanfudao, Université Northwestern
* Mots-clés associés :Tâches arithmétiques, génération de texte
* Utilisation directe :https://hyper.ai/datasets/28445
Ape210K est un nouvel ensemble de données de problèmes mathématiques à grande échelle et riche en modèles.Contient 210 000 problèmes de mathématiques de niveau primaire chinois. Chaque question comprend la meilleure réponse et l’équation nécessaire pour arriver à la réponse.
2 Ensemble de données Belle
* Agence émettrice :iFlytek, CCL, HFL
* Mots-clés associés :Génération de texte, chinois
* Utilisation directe :https://hyper.ai/datasets/28451
Cet ensemble de données utilise un ensemble d’évaluation de 1 000 échantillons pour évaluer divers modèles, couvrant 9 scénarios du monde réel.Contient environ 3,5 millions de données de commande chinoises générées par le projet BELLE.
3 Équipe chinoise
Ensemble de données de compréhension de lecture automatique en chinois
* Mots-clés associés :Questions-réponses extractives, questions-réponses intelligentes
* Utilisation directe :https://hyper.ai/datasets/28476
Cet ensemble de données est un ensemble de données de compréhension de lecture automatique chinoise, qui est converti à partir de l'équipe d'origine via la traduction automatique et la correction manuelle, y compris V1.1 et V2.0.
4 Ensemble de données d'évaluation de la compréhension de lecture automatique en chinois CMRC 2018
* Agence émettrice :iFlytek, CCL, HFL
* Mots-clés associés :Génération de texte
* Utilisation directe :https://hyper.ai/datasets/28470
Cet ensemble de données contient les données utilisées par la 2e évaluation de compréhension de lecture automatique chinoise de la iFlytek Cup (CMRC 2018) et a été accepté par EMNLP 2019, la principale conférence internationale sur la linguistique computationnelle.
5 CrossWOZ Ensemble de données de dialogue orienté tâche
* Agence émettrice :Université Tsinghua, BNRIST
* Mots-clés associés :Ensemble de données de réponses aux questions, chinois
* Utilisation directe :https://hyper.ai/datasets/28442
CrossWOZ est le premier ensemble de données inter-domaines chinois à grande échelle orienté tâches et orienté Wizard-of-Oz.Il contient 6 000 dialogues et 102 000 phrases dans 5 scénarios (attractions, hôtels, restaurants, métros et taxis). De plus, le corpus contient de riches annotations sur les états de dialogue et les comportements de dialogue entre les utilisateurs et le système.
6 DRCD Ensemble de données de compréhension de lecture Delta
* Agence émettrice :Centre de recherche Delta, Delta Electronics
* Mots-clés associés :Détection de texte, apprentissage automatique
* Utilisation directe :https://hyper.ai/datasets/28473
Delta Reading Comprehension Dataset (DRCD) est un ensemble de données de compréhension de lecture automatique en chinois traditionnel à usage général.Cet ensemble de données vise à devenir un ensemble de données standard de compréhension de lecture par machine chinoise.Contient 10 014 paragraphes de 2 108 articles Wikipédia et plus de 30 000 questions générées par des annotateurs humains.
7 Corpus de conversations Douban Corpus conversationnel de Douban
* Agence émettrice :Université Beihang, Université de Nankai, MSR
* Mots-clés associés :Analyse des questions et réponses, traitement du langage naturel
* Utilisation directe :https://hyper.ai/datasets/28497
Cet ensemble de données comprend un ensemble de données de formation, un ensemble de développement et un ensemble de tests pour un chatbot basé sur la récupération.Les données de test contiennent 1000 contextes de conversation.Pour chaque contexte, 10 réponses ont été créées comme candidates.
8 DuReader Ensemble de données de réponses aux questions
* Agence émettrice :Baidu
* Mots-clés associés :Ensemble de données de réponses aux questions, réponses intelligentes aux questions
* Utilisation directe :https://hyper.ai/datasets/28461
DuReader est un ensemble de données et un modèle de référence axés sur le domaine de la compréhension de lecture automatique, principalement utilisé pour les tâches de réponse intelligente aux questions.
9 E-KAR version chinoise Une référence pour le raisonnement analogique interprétable et à forte intensité de connaissances
* Agence émettrice :Université Fudan, laboratoire d'IA ByteDance, Brain Technologies, Inc.
* Mots-clés associés :Génération de texte, traitement du langage naturel
* Utilisation directe :https://hyper.ai/datasets/28517
E-KAR signifie Benchmark for Explainable Knowledge-intensive Analogic Reasoning, qui est une référence pour le raisonnement analogique explicable et intensif en connaissances. Les tests d’analogie de mots existants ne peuvent pas révéler le processus sous-jacent du raisonnement analogique dans les modèles neuronaux. Les chercheurs pensent que les modèles dotés de capacités de raisonnement devraient utiliser des raisons correctes comme croyances de base.Nous proposons donc le premier Benchmark de Raisonnement Analogique Interprétable et Connaissant (E-KAR).L'ensemble de données de référence comprend 1 655 questions (en chinois) et 1 251 questions (en anglais) de l'examen de la fonction publique, qui nécessitent de vastes connaissances de base pour être résolues.
10 FCGEC Ensemble de données de détection et de correction des erreurs de grammaire chinoise
* Agence émettrice :Université du Zhejiang, Huawei
* Mots-clés associés :Détection de texte
* Utilisation directe :https://hyper.ai/datasets/28512
FCGEC signifie Corpus à grain fin pour la correction des erreurs grammaticales chinoises.Il s'agit d'un corpus de correction de texte multi-références à grande échelle de locuteurs natifs, utilisé pour former et évaluer le système de modèle de correction d'erreurs. Les sources de données sont principalement des questions de tests de phrases incorrectes posées par des élèves du primaire, du collège et du lycée, ainsi que des sites Web d'agrégation de nouvelles.
11 KdConv Ensemble de données conversationnelles multi-domaines chinoises
* Agence émettrice :Université Tsinghua
* Mots-clés associés :Génération de texte
* Utilisation directe :https://hyper.ai/datasets/28507
KdConv est un ensemble de données de conversation chinois multi-domaines axé sur les connaissances qui crée des sujets dans des conversations à plusieurs tours sur un graphique de connaissances. KdConv contient 4,5 000 dialogues provenant de trois domaines (films, musique et voyages) et 86 000 énoncés avec un nombre de tours moyen de 19,0.Convient à la modélisation des interactions de connaissances dans les dialogues humains à plusieurs tours, y compris la planification des connaissances, la base de connaissances, l'adaptation des connaissances, etc.
12 Math23K Ensemble de données de mots mathématiques
* Agence émettrice :Laboratoire d'IA Tencent
* Mots-clés associés :Corpus, problèmes mathématiques
* Utilisation directe :https://hyper.ai/datasets/28504
Math23K signifie Math23K pour Math Word Problem Solving.est un ensemble de données créé pour résoudre des problèmes de mots mathématiques.Contient 23 162 questions chinoises extraites d'Internet.
13 MedDialog Ensemble de données sur le dialogue médecin-patient chinois
* Mots-clés associés :Recherche médicale, ensembles de données conversationnelles
* Utilisation directe :https://hyper.ai/datasets/28483
MedDialog est un ensemble de données de conversations médicales à grande échelle contenant 1,1 million de conversations et 4 millions d'énoncés entre médecins et patients.
14 ODSQA Ensemble de données de réponses aux questions orales du domaine ouvert
* Agence émettrice :Université nationale de Taiwan
* Mots-clés associés :Réponse intelligente aux questions, traitement du langage naturel
* Utilisation directe :https://hyper.ai/datasets/28500
L'ensemble de données ODSQA est un ensemble de données en langue parlée pour répondre aux questions en chinois.Il contient plus de trois mille questions posées par 20 intervenants différents.
15 RedGPT Générer automatiquement des ensembles de données de dialogue factuel
* Mots-clés associés :Génération de texte, traitement du langage naturel
* Utilisation directe :https://hyper.ai/datasets/28448
Le nom complet de RedGPT est Reference-Enlightened-Dialogue par GPT et pour GPT. L’exactitude factuelle est une faiblesse majeure de ChatGPT. Pour améliorer la précision factuelle, une grande quantité de données de conversation factuelles peut être annotée pour affiner le modèle GPT. Pour éviter le coût élevé de l’étiquetage manuel,Les chercheurs ont proposé une méthode pour générer automatiquement des dialogues factuels et ont rendu publiques certaines données (RedGPT-Dataset-V1-CN), qui contiennent un total de 50 000 dialogues multi-tours en chinois.
16 Le corpus parallèle des Nations Unies Corpus parallèle des Nations Unies v1.0
* Agence émettrice :Université Tsinghua, BNRIST
* Mots-clés associés :Ensemble de données de réponses aux questions, chinois
* Utilisation directe :https://hyper.ai/datasets/28464
CrossWOZ est le premier ensemble de données inter-domaines chinois à grande échelle orienté tâches et orienté Wizard-of-Oz.Il contient 6 000 dialogues et 102 000 phrases dans 5 scénarios (attractions, hôtels, restaurants, métros et taxis). De plus, le corpus contient de riches annotations sur les états de dialogue et les comportements de dialogue entre les utilisateurs et le système.
17 VQA Ensemble de données de réponses visuelles aux questions
* Mots-clés associés :Réponse visuelle aux questions, ensemble de données de réponses aux questions
* Utilisation directe :https://hyper.ai/datasets/28455
Le développement de l’apprentissage profond a favorisé la résolution de tâches liées à l’apprentissage multimodal. La réponse visuelle aux questions (VQA) est un exemple très difficile, qui nécessite une interprétation de scène de haut niveau à partir d'images et une modélisation d'un langage de réponse aux questions pertinent.Étant donné une image et une question en langage naturel sur l'image, la tâche consiste à fournir une réponse précise en langage naturel.Il s’agit d’un système de bout en bout implémenté à l’aide de Keras qui vise à accomplir cette tâche.
18 WebQA v1.0 Ensemble de données de réponses aux questions chinoises de Baidu
* Agence émettrice :Baidu
* Mots-clés associés :Apprentissage profond, réponses intelligentes aux questions
* Utilisation directe :https://hyper.ai/datasets/28467
Il s'agit d'un ensemble de données que Baidu a ouvert en 2016. Les données proviennent de Baidu Knows. Le format est une question avec plusieurs articles ayant fondamentalement la même signification, qui sont divisés en annotation manuelle et récupération par navigateur.
19 Corpus de recettes XiaChuFang Corpus de recettes de Xiachufang
* Mots-clés associés :Reconnaissance de texte, détection de texte
* Utilisation directe :https://1lh.cc/4jaL8b
Ce corpus de recettes contient 1 520 327 recettes chinoises.Parmi celles-ci, 1 242 206 recettes appartiennent à 30 060 plats. En moyenne, un plat comporte 41,3 recettes. Recettes contribuées par 415 272 auteurs. Parmi eux, l’auteur le plus productif a téléchargé 5 394 recettes.
* Utilisation directe :https://hyper.ai/datasets/28489
20 XQuAD Ensemble de données de réponses aux questions multilingues
* Agence émettrice :iFlytek, CCL, HFL
* Mots-clés associés :Analyse des questions et réponses, compréhension de lecture
* Utilisation directe :https://hyper.ai/datasets/28458
XQuAD (Cross-Lingual Question Answering Dataset) est un ensemble de données de référence pour évaluer les performances de réponse aux questions multilingues. L'ensemble de données se compose d'un sous-ensemble de 240 passages et de 1 190 paires questions-réponses de l'ensemble de développement de SQuAD v1.1 (Rajpurkar et al., 2016).
Saisie en un clic de l'ensemble de données ci-dessus
Les ensembles de données riches nécessitent toujours le support de plates-formes informatiques de haute qualité. Actuellement, la plateforme informatique bayésienne OpenBayes prend déjà en charge la liaison en un clic des ensembles de données.Tapez simplement une touche lors de la création du conteneur.L'ensemble de données cible peut être lié au conteneur correspondant, éliminant ainsi le processus fastidieux de téléchargement et de chargement et n'occupant pas l'espace de stockage personnel de l'utilisateur.
Référence du didacticiel vidéo :
[Tutoriel officiel OpenBayes] Collaboration organisationnelle_bilibili_bilibili
Pour une documentation détaillée, voir :https://1lh.cc/v2ao4q
aussi,La plateforme OpenBayes fournit également plus de 500 ensembles de données publiques sélectionnés, des modèles, des tutoriels et d'autres ressources de haute qualité.Et il a été intégré au module « Ressources publiques ».
Découvrez maintenant la liaison rapide, veuillez visiter