HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMind-Datensatz Zur Feinabstimmung Des Trainings Großer Modelle

Date

vor 10 Monaten

Size

8.08 GB

Publish URL

github.com

MiniMind ist ein Open-Source-Projekt für leichtgewichtige große Sprachmodelle, das darauf abzielt, die Hemmschwelle für die Verwendung großer Sprachmodelle (LLM) zu senken und einzelnen Benutzern schnelles Trainieren und Schlussfolgerungen auf gewöhnlichen Geräten zu ermöglichen.

MiniMind enthält mehrere Datensätze, wie z. B. den Tokenizer-Trainingssatz zum Trainieren des Wortsegmentierers, die Pretrain-Daten zum Vortraining des Modells, die SFT-Daten für die überwachte Feinabstimmung und die DPO-Daten 1 und DPO-Daten 2 zum Trainieren des Belohnungsmodells. Diese Datensätze werden aus verschiedenen Quellen integriert, wie etwa SFT-Daten von Jiangshu Technology, destillierte Qwen2.5-Daten usw., mit insgesamt etwa 3 Milliarden Token, die für das Vortraining großer chinesischer Sprachmodelle geeignet sind.

minimind_dataset.torrent
Seeding 1Downloading 0Completed 110Total Downloads 225
  • minimind_dataset/
    • README.md
      1.31 KB
    • README.txt
      2.63 KB
      • data/
        • minimind_dataset.zip
          8.08 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp