HyperAI

Solide Infos! Holen Sie Sich 20 Beliebte Chinesische LLM-Datensätze Mit Einem Klick

vor einem Jahr
Datensatz
OpenBayes Bot
特色图像

Der folgende Artikel stammt von OpenBayes Bayesian Computing, Autor Xiaobei

OpenBayes Bayesianische Berechnung.

OpenBayes ist Chinas führender Anbieter von Hochleistungsrechnerdiensten. Durch die Integration klassischer Software-Ökosysteme und Modelle des maschinellen Lernens in eine neue Generation heterogener Chips werden Industrieunternehmen und der universitären Forschung schnellere und benutzerfreundlichere Produkte für die Datenwissenschaft bereitgestellt. Bisher wurden Dutzende großer Industrieunternehmen und führender Forschungsinstitute von dem Unternehmen beliefert.

seit ChatGPT  Seit seiner EinführungDas große Sprachmodell (LLM) hat mit seiner herausragenden Lernfähigkeit in verschiedenen Bereichen für Aufsehen gesorgt.Das Trainieren und Optimieren großer Modelle kann nicht von der Unterstützung hochwertiger und umfangreicher Daten getrennt werden. Sorgfältig erstellte Datensätze liefern nicht nur ausreichend Treibstoff für große Modelle, sondern ermöglichen auch die Anwendung und Leistungsverbesserung großer Modelle in vertikalen Feldern.

Dieser Artikel sortiert einige beliebte öffentliche chinesische Datensätze, die für das Training und die Optimierung großer Modelle geeignet sind (in alphabetischer Reihenfolge).Für jeden verständlich und nutzbar.

Freundliche Tipps:

Alle in diesem Artikel aufgeführten Datensätze können mit einer Ein-Klick-Eingabe auf der OpenBayes.com-Plattform direkt beim Modelltraining und -einsatz verwendet werden.

Direktlink:

https://openbayes.com/console/public/datasets

1 Ape210K Chinesische Mathematikaufgaben auf Grundschulniveau

* Ausstellende Behörde:Yuanfudao AI Lab, Northwestern University

* Verwandte Tags:Rechenaufgaben, Textgenerierung

Direkte Verwendung:https://hyper.ai/datasets/28445

Ape210K ist ein neuer umfangreicher und vorlagenreicher Datensatz mit mathematischen Textaufgaben.Enthält 210.000 chinesische Mathematikaufgaben auf Grundschulniveau. Jede Frage enthält die beste Antwort und die Gleichung, die zum Erreichen der Antwort erforderlich ist.

2 Belle-Datensatz

* Ausstellende Behörde:iFlytek, CCL, HFL

* Verwandte Tags:Textgenerierung, Chinesisch

* Direkte Verwendung:https://hyper.ai/datasets/28451

Dieser Datensatz verwendet einen Auswertungssatz von 1.000 Beispielen zur Auswertung verschiedener Modelle und deckt dabei 9 reale Szenarien ab.Enthält ungefähr 3,5 Millionen chinesische Befehlsdaten, die vom BELLE-Projekt generiert wurden.

3 Chinesische Mannschaft 

Chinesischer Datensatz zum maschinellen Leseverständnis

* Verwandte Tags:Extraktive Fragen und Antworten, intelligente Fragen und Antworten

* Direkte Verwendung:https://hyper.ai/datasets/28476

Bei diesem Datensatz handelt es sich um einen chinesischen Datensatz zum maschinellen Leseverständnis, der durch maschinelle Übersetzung und manuelle Korrektur aus dem Original-Squad konvertiert wurde, einschließlich V1.1 und V2.0.

4 CMRC 2018 – Datensatz zur Bewertung des maschinellen Leseverständnisses in China

* Ausstellende Behörde:iFlytek, CCL, HFL

* Verwandte Tags:Textgenerierung

* Direkte Verwendung:https://hyper.ai/datasets/28470

Dieser Datensatz enthält die Daten, die bei der 2. iFlytek Cup Chinese Machine Reading Comprehension Evaluation (CMRC 2018) verwendet wurden, und wurde von EMNLP 2019, der führenden internationalen Konferenz für Computerlinguistik, angenommen.

5 CrossWOZ  Aufgabenorientierter Dialogdatensatz

* Ausstellende Behörde:Tsinghua-Universität, BNRIST

* Verwandte Tags:Frage-Antwort-Datensatz, Chinesisch

* Direkte Verwendung:https://hyper.ai/datasets/28442

CrossWOZ ist der erste groß angelegte, aufgabenorientierte, domänenübergreifende chinesische Wizard-of-Oz-Datensatz.Es enthält 6.000 Dialoge und 102.000 Sätze in 5 Szenarien (Sehenswürdigkeiten, Hotels, Restaurants, U-Bahnen und Taxis). Darüber hinaus enthält das Korpus umfangreiche Anmerkungen zu Dialogzuständen und Dialogverhalten zwischen Benutzern und System.

6 DRCD Delta-Leseverständnis-Datensatz

* Ausstellende Behörde:Delta-Forschungszentrum, Delta Electronics

* Verwandte Tags:Texterkennung, maschinelles Lernen

* Direkte Verwendung:https://hyper.ai/datasets/28473

Delta Reading Comprehension Dataset (DRCD) ist ein allgemeiner maschineller Leseverständnis-Datensatz für traditionelles Chinesisch.Dieser Datensatz soll ein Standarddatensatz zum maschinellen Leseverständnis in China werden.Enthält 10.014 Absätze aus 2.108 Wikipedia-Artikeln und mehr als 30.000 von menschlichen Kommentatoren erstellte Fragen.

7 Douban-Konversationskorpus Douban-Konversationskorpus

* Ausstellende Behörde:Beihang-Universität, Nankai-Universität, MSR

* Verwandte Tags:Frage- und Antwortanalyse, Verarbeitung natürlicher Sprache

* Direkte Verwendung:https://hyper.ai/datasets/28497

Dieser Datensatz umfasst einen Trainingsdatensatz, einen Entwicklungsdatensatz und einen Testdatensatz für einen abrufbasierten Chatbot.Die Testdaten enthalten 1000 Gesprächskontexte.Für jeden Kontext wurden 10 Antworten als Kandidaten erstellt.

8 DuReader  Fragen-Antwort-Datensatz

* Ausstellende Behörde:Baidu

* Verwandte Tags:Datensatz zur Beantwortung von Fragen, intelligente Beantwortung von Fragen

* Direkte Verwendung:https://hyper.ai/datasets/28461

DuReader ist ein Benchmark-Datensatz und -Modell mit Schwerpunkt auf dem Bereich des maschinellen Leseverständnisses und wird hauptsächlich für intelligente Frage- und Antwortaufgaben verwendet.

9 E-KAR Chinesische Version Ein Maßstab für interpretierbares wissensintensives analoges Denken

* Ausstellende Behörde:Fudan-Universität, ByteDance AI Lab, Brain Technologies, Inc.

* Verwandte Tags:Textgenerierung, natürliche Sprachverarbeitung

* Direkte Verwendung:https://hyper.ai/datasets/28517

E-KAR steht für Benchmark for Explainable Knowledge-intensive Analogical Reasoning, ein Benchmark für erklärbares wissensintensives analoges Denken. Vorhandene Benchmarks für Wortanalogietests können den zugrunde liegenden Prozess des analogen Denkens in neuronalen Modellen nicht aufdecken. Forscher glauben, dass Modelle mit Denkfähigkeit korrekte Gründe als Grundüberzeugungen verwenden sollten.Daher wird der erste Knowledgeable Interpretable Analogical Reasoning Benchmark (E-KAR) vorgeschlagen.Der Benchmark-Datensatz besteht aus 1.655 (auf Chinesisch) und 1.251 (auf Englisch) Fragen aus der Beamtenprüfung, deren Lösung umfangreiches Hintergrundwissen erfordert.

10 FCGEC  Datensatz zur Erkennung und Korrektur chinesischer Grammatikfehler

* Ausstellende Behörde:Zhejiang-Universität, Huawei

* Verwandte Tags:Texterkennung

* Direkte Verwendung:https://hyper.ai/datasets/28512

FCGEC steht für Fine-Grained Corpus for Chinese Grammatical Error Correction.Es handelt sich um ein umfangreiches, multireferenziertes Textkorrekturkorpus von Muttersprachlern, wird zum Trainieren und Bewerten des fehlerkorrigierenden Modellsystems verwendet. Die Datenquellen sind hauptsächlich Testfragen zu falschen Sätzen von Grund-, Mittel- und Oberstufenschülern sowie Nachrichtenaggregations-Websites.

11 KdConv  Chinesischer Multi-Domain-Konversationsdatensatz

* Ausstellende Behörde:Tsinghua-Universität

* Verwandte Tags:Textgenerierung

* Direkte Verwendung:https://hyper.ai/datasets/28507

KdConv ist ein chinesischer, wissensbasierter Konversationsdatensatz für mehrere Domänen, der Themen in mehrstufigen Konversationen auf einem Wissensgraphen aufbaut. KdConv enthält 4,5.000 Dialoge aus drei Bereichen (Filme, Musik und Reisen) und 86.000 Äußerungen mit einer durchschnittlichen Umdrehungszahl von 19,0.Geeignet für die Modellierung von Wissensinteraktionen in mehrstufigen menschlichen Dialogen, einschließlich Wissensplanung, Wissensbasis, Wissensanpassung usw.

12 Math23K  Datensatz mit mathematischen Wörtern

* Ausstellende Behörde:Tencent AI Lab

* Verwandte Tags:Korpus, mathematische Probleme

* Direkte Verwendung:https://hyper.ai/datasets/28504

Math23K steht für Math23K (Math Word Problem Solving).ist ein Datensatz, der zum Lösen mathematischer Textaufgaben erstellt wurde.Enthält 23.162 aus dem Internet gecrawlte chinesische Fragen.

13 MedDialog  Chinesischer Arzt-Patienten-Dialogdatensatz

* Verwandte Tags:Medizinische Forschung, Konversationsdatensätze

* Direkte Verwendung:https://hyper.ai/datasets/28483

MedDialog ist ein umfangreicher Datensatz medizinischer Gespräche, der 1,1 Millionen Gespräche und 4 Millionen Äußerungen zwischen Ärzten und Patienten enthält.

14 ODSQA  Open Domain-Datensatz zum Beantworten mündlicher Fragen

* Ausstellende Behörde:National Taiwan University

* Verwandte Tags:Intelligente Fragenbeantwortung, natürliche Sprachverarbeitung

* Direkte Verwendung:https://hyper.ai/datasets/28500

Der ODSQA-Datensatz ist ein Datensatz für die Beantwortung gesprochener Fragen in chinesischer Sprache.Es enthält über dreitausend Fragen von 20 verschiedenen Sprechern.

15 RedGPT Automatisch sachliche Dialogdatensätze generieren

* Verwandte Tags:Textgenerierung, natürliche Sprachverarbeitung

* Direkte Verwendung:https://hyper.ai/datasets/28448

Der vollständige Name von RedGPT lautet Reference-Enlightened-Dialogue von GPT und für GPT. Die sachliche Genauigkeit ist eine große Schwäche von ChatGPT. Um die sachliche Genauigkeit zu verbessern, kann eine große Menge sachlicher Gesprächsdaten zur Feinabstimmung des GPT-Modells annotiert werden. Um die hohen Kosten einer manuellen Etikettierung zu vermeiden,Die Forscher schlugen eine Methode zur automatischen Generierung sachlicher Dialoge vor und machten einen Teil der Daten öffentlich (RedGPT-Dataset-V1-CN), die insgesamt 50.000 mehrstufige Dialoge auf Chinesisch enthalten.

16 Das Parallelkorpus der Vereinten Nationen  Parallelkorpus der Vereinten Nationen v1.0

* Ausstellende Behörde:Tsinghua-Universität, BNRIST

* Verwandte Tags:Frage-Antwort-Datensatz, Chinesisch

* Direkte Verwendung:https://hyper.ai/datasets/28464

CrossWOZ ist der erste groß angelegte, aufgabenorientierte, domänenübergreifende chinesische Wizard-of-Oz-Datensatz.Es enthält 6.000 Dialoge und 102.000 Sätze in 5 Szenarien (Sehenswürdigkeiten, Hotels, Restaurants, U-Bahnen und Taxis). Darüber hinaus enthält das Korpus umfangreiche Anmerkungen zu Dialogzuständen und Dialogverhalten zwischen Benutzern und System.

17 VQA  Visueller Datensatz zur Beantwortung von Fragen

* Verwandte Tags:Visuelle Fragenbeantwortung, Fragenbeantwortungs-Datensatz

* Direkte Verwendung:https://hyper.ai/datasets/28455

Die Entwicklung des Deep Learning hat die Lösung multimodaler Lernaufgaben gefördert. Visual Question Answering (VQA) ist ein sehr anspruchsvolles Beispiel, das eine Szeneninterpretation auf hohem Niveau aus Bildern und die Modellierung einer relevanten Frage-Antwort-Sprache erfordert.Bei einem Bild und einer Frage in natürlicher Sprache zu dem Bild besteht die Aufgabe darin, eine genaue Antwort in natürlicher Sprache zu geben.Dies ist ein mit Keras implementiertes End-to-End-System, das diese Aufgabe erfüllen soll.

18 WebQA v1.0  Baidu-Datensatz für chinesische Fragen und Antworten

* Ausstellende Behörde:Baidu

* Verwandte Tags:Deep Learning, intelligente Fragenbeantwortung

* Direkte Verwendung:https://hyper.ai/datasets/28467

Dies ist ein Datensatz, den Baidu 2016 freigegeben hat. Die Daten stammen von Baidu Knows. Das Format ist eine Frage mit mehreren Artikeln mit grundsätzlich gleicher Bedeutung, die in manuelle Annotation und Browserabruf unterteilt sind.

19 XiaChuFang Rezeptkorpus  Xiachufang-Rezeptkorpus

* Verwandte Tags:Texterkennung, Textdetektion

* Direkte Verwendung:https://1lh.cc/4jaL8b

Dieses Rezeptkorpus enthält 1.520.327 chinesische Rezepte.Davon gehören 1.242.206 Rezepte zu 30.060 Gerichten. Im Durchschnitt gibt es für ein Gericht 41,3 Rezepte. Rezepte von 415.272 Autoren. Unter ihnen hat der produktivste Autor 5.394 Rezepte hochgeladen.

* Direkte Verwendung:https://hyper.ai/datasets/28489

20 XQuAD  Sprachübergreifender Datensatz zur Beantwortung von Fragen

* Ausstellende Behörde:iFlytek, CCL, HFL

* Verwandte Tags:Frage- und Antwortanalyse, Leseverstehen

* Direkte Verwendung:https://hyper.ai/datasets/28458

XQuAD (Cross-Lingual Question Answering Dataset) ist ein Benchmark-Datensatz zur Bewertung der Leistung beim Beantworten sprachübergreifender Fragen. Der Datensatz besteht aus einer Teilmenge von 240 Passagen und 1.190 Frage-Antwort-Paaren aus dem Entwicklungssatz von SQuAD v1.1 (Rajpurkar et al., 2016).

Eingabe des obigen Datensatzes mit einem Klick

Umfangreiche Datensätze erfordern weiterhin die Unterstützung hochwertiger Computerplattformen. Derzeit unterstützt die Bayesian-Computing-Plattform OpenBayes bereits die Ein-Klick-Bindung von Datensätzen.Geben Sie während der Containererstellung einfach einen Schlüssel ein.Der Zieldatensatz kann an den entsprechenden Container gebunden werden, wodurch der mühsame Download- und Upload-Prozess entfällt und der persönliche Speicherplatz des Benutzers nicht belegt wird.

Referenz zum Video-Tutorial:

[Offizielles OpenBayes-Tutorial] Organisatorische Zusammenarbeit_bilibili_bilibili

Ausführliche Dokumentation finden Sie unter:https://1lh.cc/v2ao4q

Auch,Die OpenBayes-Plattform bietet außerdem mehr als 500 ausgewählte öffentliche Datensätze, Modelle, Tutorials und andere hochwertige Ressourcen.Und es wurde in das Modul „Öffentliche Ressourcen“ integriert.

Erleben Sie jetzt die schnelle Bindung, besuchen Sie bitte

https://openbayes.com/console/login