Eine Sammlung Supergroßer Modellressourcen | 30 Hochwertige NLP-Datensätze Und -Modelle, 8 Demos Zur Verwendung Mit Einem Klick, Zum Sammeln Empfohlen!

In den letzten zwei Jahren hat die Popularität großer Modelle weiter zugenommen und man hat begonnen, sie in immer mehr Bereichen zu erproben. Mit der rasanten Entwicklung der gesamten Branche strömen immer mehr große Open-Source-Modelle auf den Markt und fördern die Ausweitung von Anwendungen auf höherer Ebene weiter.
Für Entwickler ist die Auswahl hochwertiger großer Modelle und Datensätze für ihre nachfolgende Forschung und Entwicklung sowie die Feinabstimmung der Modelle von entscheidender Bedeutung. Um jedem die Auswahl und den Download von Modellen und Datensätzen zu erleichtern, die sich an die Entwicklungsanforderungen anpassen,HyperAI hat einige Ressourcen zu großen Modellen für Sie zusammengestellt:
* Hochwertige öffentliche Datensätze: 15
* Hochwertige Open-Source-Modelle: 15
* Hochwertige Tutorial-Auswahl: 8
Weitere Ressourcen für große Modelle finden Sie auf der offiziellen Website:hyper.ai
Datensatzauswahl
1. seq-monkey Sequenzaffe Open-Source-Datensatz 1.0
Der Sequence Monkey-Datensatz ist ein Datensatz, der zum Trainieren des Sequence Monkey-Modells verwendet wird und Bereiche abdeckt, darunter: Chinesisches allgemeines Textkorpus, Korpus für Übersetzungen antiker Poesie und Korpus für die Textgenerierung.
Direkte Verwendung:https://hyper.ai/datasets/30139
2. IEPile-Korpus zur Extraktion umfangreicher Informationen
IEPile ist ein umfangreicher, hochwertiger, zweisprachiger (Chinesisch und Englisch) Datensatz zur Feinabstimmung von Anweisungen zur Informationsextraktion (IE), der von der Zhejiang-Universität entwickelt wurde und mehrere Bereiche wie Medizin und Finanzen abdeckt.
Direkte Verwendung:https://hyper.ai/datasets/30064
3. LongAlign-10K Großer Modell-Datensatz zur Ausrichtung langer Kontexte
LongAlign-10k wurde von der Tsinghua-Universität vorgeschlagen. Es handelt sich um einen Datensatz, der die Herausforderungen bewältigen soll, denen große Modelle bei Ausrichtungsaufgaben mit großem Kontext gegenüberstehen. Es enthält 10.000 lange Befehlsdaten mit einer Länge zwischen 8k und 64k.
Direkte Verwendung:https://hyper.ai/datasets/30247
4. Dianping-Datensatz
Der Datensatz enthält 4,4 Millionen Bewertungen oder Beurteilungen von 540.000 Benutzern zu 240.000 Restaurants. Es kann für Aufgaben wie Empfehlungssysteme, Stimmungs-/Meinungs-/Kommentartendenzanalysen usw. verwendet werden.
Direkte Verwendung:https://hyper.ai/datasets/29993
5. Amazon-Benutzerbewertungsdatensatz
Der Datensatz enthält 7,2 Millionen Bewertungen oder Beurteilungen von 1,42 Millionen Benutzern zu 520.000 Produkten in mehr als 1.100 Kategorien auf der Amazon-Website. Es kann für Aufgaben wie Empfehlungssysteme und Stimmungs-/Meinungs-/Bewertungstendenzanalysen verwendet werden.
Direkte Verwendung:https://hyper.ai/datasets/30009
6. PD&CFT People’s Daily Chinese Leseverständnis-Datensatz
Dieser Datensatz ist der erste chinesische Leseverständnisdatensatz, der People's Daily und Children's Fairy Tale (PD&CFT) enthält.
Direkte Verwendung:https://hyper.ai/datasets/29260
7. Toutiao-Datensatz zur Klassifizierung chinesischer Texte
Dieser Datensatz ist ein Klassifizierungsdatensatz der chinesischen Nachrichten von Toutiao (Kurztext). Die Datenquelle ist der Toutiao-Client. Es enthält 15 Kategorien und 382.688 Texte.
Direkte Verwendung:https://hyper.ai/datasets/29517
8. FewJoint Benchmark-Datensatz
Dieser Datensatz stammt von der offenen AIUI-Plattform von iFlytek. Es enthält Korpusse von echten Benutzern und von Experten erstellte Korpusse (im Verhältnis von etwa 3:7) mit insgesamt 59 echten Domänen. Es handelt sich um einen der Konversationsdatensätze mit den derzeit meisten Domänen.
Direkte Verwendung:https://hyper.ai/datasets/29239
9. PAWS-X: Ein sprachübergreifender Adversarial-Datensatz zur Paraphrasenidentifizierung
Der Datensatz enthält 23.659 von Menschen übersetzte PAWS-Evaluierungspaare und 296.406 maschinenübersetzte Trainingspaare in 6 verschiedenen Sprachen: Französisch, Spanisch, Deutsch, Chinesisch, Japanisch und Koreanisch. Alle Übersetzungspaare sind aus Beispielen im PAWS-Wiki abgeleitet.
Direkte Verwendung:https://hyper.ai/datasets/29264
10. Wikipedia
Der Datensatz basiert auf einem Wikipedia-Dump und enthält 56 Sprachen, mit einer Teilmenge pro Sprache und jeder Teilmenge, die einen Trainingssplit enthält. Jedes Beispiel enthält den Inhalt eines vollständigen Wikipedia-Artikels, bereinigt um Markup und unerwünschte Teile (Verweise usw.).
Direkte Verwendung:https://hyper.ai/datasets/28528
11. RJUA-QA: Der erste Datensatz zum Beantworten von Fragen im chinesischen medizinischen Fachgebiet
Der RJUA-QA-Datensatz enthält insgesamt 2.132 Frage-Antwort-Paare. Jedes Frage-Antwort-Paar besteht aus einer von einem Arzt auf Grundlage klinischer Erfahrung formulierten Frage, einer Antwort eines Experten und einem zugehörigen Argumentationskontext. Die Kontextinformationen stammen aus den chinesischen Richtlinien für die Diagnose und Behandlung urologischer und andrologischer Erkrankungen.
Direkte Verwendung:https://hyper.ai/datasets/28970
12. ShareGPT 90k Chinesischer und englischer zweisprachiger Mensch-Maschine-Frage-Antwort-Datensatz
ShareGPT-Chinese-English-90k ist ein hochwertiger Mensch-Maschine-Frage-Antwort-Datensatz parallel in Chinesisch und Englisch, der Benutzerfragen in realen und komplexen Szenarien abdeckt. Kann zum Trainieren hochwertiger Dialogmodelle verwendet werden.
Direkte Verwendung:
https://hyper.ai/datasets/29523
13. SMP-2017 Chinesischer Datensatz zur Erkennung von Gesprächsabsichten
Bei diesem Datensatz handelt es sich um den Datensatz der Aufgabe 1 der SMP2017 Chinese Human-Computer Dialogue Technology Evaluation (ECDT).
Direkte Verwendung:https://hyper.ai/datasets/29515
14. Chinese-Poetry Datenbank zur Sammlung klassischer chinesischer Poesie
Dieser Datensatz ist die umfassendste Datenbank zur klassischen chinesischen Literatur und umfasst 55.000 Tang-Gedichte, 260.000 Singgedichte, 21.000 Singgedichte und andere klassische Literatur.
Direkte Verwendung:https://hyper.ai/datasets/29257
15. MCFEND Ein Benchmark-Datensatz aus mehreren Quellen zur Erkennung chinesischer Fake News
Bei diesem Datensatz handelt es sich um einen Benchmark-Datensatz zur Erkennung chinesischer Fake News aus mehreren Quellen, der gemeinsam von der Hong Kong Baptist University, der Chinese University of Hong Kong und anderen Institutionen erstellt wurde.
Direkte Verwendung:https://hyper.ai/datasets/30429
Weitere öffentliche Datensätze finden Sie unter:
Große Modellauswahl
1. Mixtral-8x7B
Dieses Modell ist ein großes Sprachmodell, das von Mistral AI basierend auf Mistral 7B eingeführt wurde.
Direkte Verwendung:https://openbayes.com/console/public/models/f1Ze9ci0tAZ/1/overview
2. C4AI-Befehl-R
C4AI Command-R ist ein 35 Milliarden Parameter umfassendes, leistungsstarkes generatives Modell, das gemeinsam von Cohere und Cohere For AI entwickelt wurde. Die Kombination aus mehrsprachigen Generierungsfunktionen und leistungsstarken RAG-Funktionen verschafft Command-R einen einzigartigen Vorteil bei sprachübergreifenden und wissensintensiven Aufgaben.
Direkte Verwendung:https://openbayes.com/console/public/models/moNFtsf3XUe/1/overview
3. Finanzielles Großmodell deepmoney-34B-chat
Das Modell wird basierend auf Yi-34B-200K trainiert und ist in zwei Phasen unterteilt: pt (vollständiges Parametertraining) und sft (Lora-Feintuning).
Direkte Verwendung:https://openbayes.com/console/public/models/yiEoQipyFCK/1/overview
4. ChatGLM3-Serie
ChatGLM3 ist ein gemeinsam von Zhipu AI und dem KEG Laboratory der Tsinghua-Universität veröffentlichtes Vortrainingsmodell für Konversationen.
ChatGLM3-6B
Dieses Modell ist ein Open-Source-Modell der ChatGLM3-Reihe, das viele hervorragende Funktionen der beiden vorherigen Modellgenerationen beibehält, wie z. B. reibungslose Konversation und niedrige Bereitstellungsschwelle.
Direkte Verwendung:https://openbayes.com/console/public/models/mHwG5TYJVTU/1/overview
ChatGLM3-6B-Base
Dieses Modell ist das Basismodell von ChatGLM3-6B, das vielfältigere Trainingsdaten, ausreichendere Trainingsschritte und vernünftigere Trainingsstrategien verwendet.
Direkte Verwendung:https://openbayes.com/console/public/models/7CzPfTweYvU/1/overview
5. LLaVA-v1.5-Serie
LLaVA ist ein Modell, das eine multimodale Konvertierung zwischen Sehen und Sprache ermöglicht und aus einem visuellen Encoder und einem großen Sprachmodell besteht (Vicuna v1.5 13B).
LLaVA-v1.5-7B
Das Modell ist ein 7 Milliarden Parametermodell aus der LLaVA-v1.5-Familie.
Direkte Verwendung:https://openbayes.com/console/public/models/ZRdv9aF1hGF/1/overview
LLaVA-v1.5-13B
Das Modell ist ein 13 Milliarden Parametermodell aus der LLaVA-v1.5-Familie.
Direkte Verwendung:https://openbayes.com/console/public/models/PagJNrY85MC/1/overview
6. Yi-34B-Serie
Die Modelle der Yi-Serie sind Open-Source-Modelle für große Sprachen, die von 01.AI von Grund auf trainiert wurden. Bei den folgenden Modellreihen handelt es sich um verwandte Modelle der Größe 34B.
Yi-34B-Chat
Dieses Modell stammt aus der Yi-34B-Serie und ist ein Chat-Modell, das für eine Vielzahl von Gesprächsszenarien geeignet ist.
Direkte Verwendung:https://openbayes.com/console/public/models/6FUjDvKGZNT/1/overview
Yi-34B-Chat-GGUF
Dieses Modell ist das GGUF-Format des Yi-34B-Chat.
Direkte Verwendung:https://openbayes.com/console/public/models/1QqoTcU07zG/1/overview
Yi-34B-Chat-4bits
Dieses Modell ist eine 4-Bit-quantisierte Version des Yi-34B-Chat-Modells und kann direkt auf Grafikkarten der Verbraucherklasse (wie RTX3090) verwendet werden.
Direkte Verwendung:https://openbayes.com/console/public/models/JJCjA8x48ev/1/overview
7. Qwen Tongyi Qianwen Große Modellreihe
Qwen ist eine Reihe von ultragroßen Sprachmodellen, die von Alibaba Cloud eingeführt wurden und verschiedene Modelle mit unterschiedlicher Parameteranzahl umfassen. Es umfasst Qwen (grundlegendes vortrainiertes Sprachmodell) und Qwen-Chat (Chat-Modell), und das Chat-Modell wird mithilfe einer Human-Alignment-Technologie feinabgestimmt.
Qwen1.5-1.8B-Chat
Qwen1.5 ist die Betaversion von Qwen2, einer kleineren Chatmodellversion der Qwen2-Reihe mit einer Parametergröße von 1,8 Milliarden.
Direkte Verwendung:
https://openbayes.com/console/public/models/A83bxItlb1M/1/overview
Qwen-14B-Chat-Int4
Qwen-14B-Chat ist ein Chat-Modell mit 14 Milliarden Parametern in der großen Modellreihe Tongyi Qianwen. Dieses Modell ist sein Int4-quantisiertes Modell.
Direkte Verwendung:https://openbayes.com/console/public/models/tlA61MKMb7C/1/overview
Qwen-72B-Chat
Dieses Modell ist ein 72-Milliarden-Parameter-Modell aus der großen Modellreihe von Tongyi Qianwen.
Direkte Verwendung:https://openbayes.com/console/public/models/IyhI1wCMCvU/1/overview
Qwen-72B-Chat-Int4
Dieses Modell ist das Int4-quantisierte Modell von Qwen-72B-Chat.
Direkte Verwendung:https://openbayes.com/console/public/models/XVAkUec0H5e/1/overview
Qwen-72B-Chat-Int8
Dieses Modell ist das Int8-quantisierte Modell von Qwen-72B-Chat.
Direkte Verwendung:https://openbayes.com/console/public/models/LEnvRTil8Xe/1/overview
Hochwertige Tutorial-Auswahl
1. Führen Sie Qwen1.5-MoE online aus
Qwen1.5-MoE-A2.7B ist das erste MoE-Modell der Qwen-Serie, das vom Tongyi Qianwen-Team auf den Markt gebracht wurde. Dieses Tutorial ist sein Demo-Container. Sie können Gradio Link verwenden, um das große Modell zu erleben, indem Sie es mit einem Klick klonen.
Online ausführen:https://openbayes.com/console/public/tutorials/1xfftSx42TR
2. Qwen-14B-Chat-Int4 Modell Gradio Demo
Dieses Tutorial ist ein Demo-Container von Qwen-14B-Chat-Int4. Sie können es mit einem Klick klonen und den Gradio-Link verwenden, um das große Modell zu erleben.
Online ausführen:https://openbayes.com/console/public/tutorials/hqe2P86oMDA
3. Qwen-1.8B-Chat-API-FT-Modelldemo
Dieses Tutorial zeigt hauptsächlich, wie das Qwen-1.8B-Chat-Modell ausgeführt wird und wie der Hauptprozess der Feinabstimmung abläuft.
Online ausführen:https://openbayes.com/console/public/tutorials/C8OUoAlBR1m
4. Qwen-72B-Chat-Int4 Modell Gradio Demo
Dieses Tutorial ist ein Demo-Container von Qwen-72B-Chat-Int4. Sie können es mit einem Klick klonen und den Gradio-Link verwenden, um das große Modell zu erleben.
Online ausführen:https://openbayes.com/console/public/tutorials/Gr4tiYYq24K
5. Führen Sie das Quantisierungsmodell von Yi-34B-Chat online aus
Dieses Tutorial demonstriert hauptsächlich den Hauptprozess der Verwendung von LlamaEdge zum Ausführen des quantitativen Modells Yi-34B-Chat.
Online ausführen:https://openbayes.com/console/public/tutorials/v6ZVAzejUCM
6. Ausführen des Finanzmodells Deepmoney-34B-full online
Deepmoney ist ein groß angelegtes Sprachmodellprojekt mit dem Schwerpunkt auf Investitionen im Finanzbereich. Deepmoney-34B-full wird basierend auf dem Yi-34B-200K-Modell trainiert und ist in zwei Phasen unterteilt: pt (vollständiges Parametertraining) und sft (Lora-Feintuning). Es kann jetzt mit einem Klick auf der offiziellen Super Neuro-Website geklont und verwendet werden.
Online ausführen:https://openbayes.com/console/public/tutorials/uBYYEnxdpce
7. Mit einem Klick die Yi-9B-Demo starten
Yi-9B ist das Modell mit den stärksten Code- und Mathematikfähigkeiten in der Yi-Serie. Dieses Tutorial ist ein Demo-Container von Yi-9B.
Online ausführen:https://openbayes.com/console/public/tutorials/BitjtzfuNLb
8. Schnelle Bereitstellung von ChatGLM2-6B
Dieses Tutorial ist ein Demo-Container von ChatGLM2-6B. Sie können es mit einem Klick klonen und den Gradio-Link verwenden, um das große Modell zu erleben.
Online ausführen:https://openbayes.com/console/public/tutorials/KD5azt9z9tn
Oben sind alle vom großen Modelleditor ausgewählten Inhalte aufgeführt. Wenn Sie über Ressourcen verfügen, die Sie auf der offiziellen Website von hyper.ai veröffentlichen möchten, können Sie uns auch gerne eine Nachricht hinterlassen oder einen Artikel einreichen!
Über HyperAI
HyperAI (hyper.ai) ist eine führende Community für künstliche Intelligenz und Hochleistungsrechnen in China.Wir haben uns zum Ziel gesetzt, die Infrastruktur im Bereich der Datenwissenschaft in China zu werden und inländischen Entwicklern umfangreiche und qualitativ hochwertige öffentliche Ressourcen bereitzustellen. Bisher haben wir:
* Bereitstellung von inländischen beschleunigten Download-Knoten für über 1200 öffentliche Datensätze
* Enthält über 300 klassische und beliebte Online-Tutorials
* Interpretation von über 100 AI4Science-Papierfällen
* Unterstützt die Suche nach über 500 verwandten Begriffen
* Hosting der ersten vollständigen chinesischen Apache TVM-Dokumentation in China
Besuchen Sie die offizielle Website, um Ihre Lernreise zu beginnen: