HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMind-Datensatz Zur Feinabstimmung Des Trainings Großer Modelle

Datum

vor 8 Monaten

Größe

8.08 GB

Veröffentlichungs-URL

github.com

MiniMind ist ein Open-Source-Projekt für leichtgewichtige große Sprachmodelle, das darauf abzielt, die Hemmschwelle für die Verwendung großer Sprachmodelle (LLM) zu senken und einzelnen Benutzern schnelles Trainieren und Schlussfolgerungen auf gewöhnlichen Geräten zu ermöglichen.

MiniMind enthält mehrere Datensätze, wie z. B. den Tokenizer-Trainingssatz zum Trainieren des Wortsegmentierers, die Pretrain-Daten zum Vortraining des Modells, die SFT-Daten für die überwachte Feinabstimmung und die DPO-Daten 1 und DPO-Daten 2 zum Trainieren des Belohnungsmodells. Diese Datensätze werden aus verschiedenen Quellen integriert, wie etwa SFT-Daten von Jiangshu Technology, destillierte Qwen2.5-Daten usw., mit insgesamt etwa 3 Milliarden Token, die für das Vortraining großer chinesischer Sprachmodelle geeignet sind.

minimind_dataset.torrent
Seeding 1Herunterladen 0Abgeschlossen 105Gesamtdownloads 182
  • minimind_dataset/
    • README.md
      1.31 KB
    • README.txt
      2.63 KB
      • data/
        • minimind_dataset.zip
          8.08 GB

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp