MiniMind-Datensatz Zur Feinabstimmung Des Trainings Großer Modelle
Datum
Größe
Veröffentlichungs-URL
Kategorien
MiniMind ist ein Open-Source-Projekt für leichtgewichtige große Sprachmodelle, das darauf abzielt, die Hemmschwelle für die Verwendung großer Sprachmodelle (LLM) zu senken und einzelnen Benutzern schnelles Trainieren und Schlussfolgerungen auf gewöhnlichen Geräten zu ermöglichen.
MiniMind enthält mehrere Datensätze, wie z. B. den Tokenizer-Trainingssatz zum Trainieren des Wortsegmentierers, die Pretrain-Daten zum Vortraining des Modells, die SFT-Daten für die überwachte Feinabstimmung und die DPO-Daten 1 und DPO-Daten 2 zum Trainieren des Belohnungsmodells. Diese Datensätze werden aus verschiedenen Quellen integriert, wie etwa SFT-Daten von Jiangshu Technology, destillierte Qwen2.5-Daten usw., mit insgesamt etwa 3 Milliarden Token, die für das Vortraining großer chinesischer Sprachmodelle geeignet sind.