HyperAI

MiniMind-Datensatz Zur Feinabstimmung Des Trainings Großer Modelle

Datum

vor 4 Monaten

Größe

8.08 GB

Veröffentlichungs-URL

github.com

MiniMind ist ein Open-Source-Projekt für leichtgewichtige große Sprachmodelle, das darauf abzielt, die Hemmschwelle für die Verwendung großer Sprachmodelle (LLM) zu senken und einzelnen Benutzern schnelles Trainieren und Schlussfolgerungen auf gewöhnlichen Geräten zu ermöglichen.

MiniMind enthält mehrere Datensätze, wie z. B. den Tokenizer-Trainingssatz zum Trainieren des Wortsegmentierers, die Pretrain-Daten zum Vortraining des Modells, die SFT-Daten für die überwachte Feinabstimmung und die DPO-Daten 1 und DPO-Daten 2 zum Trainieren des Belohnungsmodells. Diese Datensätze werden aus verschiedenen Quellen integriert, wie etwa SFT-Daten von Jiangshu Technology, destillierte Qwen2.5-Daten usw., mit insgesamt etwa 3 Milliarden Token, die für das Vortraining großer chinesischer Sprachmodelle geeignet sind.

minimind_dataset.torrent
Seeding 1Herunterladen 0Abgeschlossen 62Gesamtdownloads 74
  • minimind_dataset/
    • README.md
      1.31 KB
    • README.txt
      2.63 KB
      • data/
        • minimind_dataset.zip
          8.08 GB