Command Palette
Search for a command to run...
MiniMind-Datensatz Zur Feinabstimmung Des Trainings Großer Modelle
MiniMind ist ein Open-Source-Projekt für leichtgewichtige große Sprachmodelle, das darauf abzielt, die Hemmschwelle für die Verwendung großer Sprachmodelle (LLM) zu senken und einzelnen Benutzern schnelles Trainieren und Schlussfolgerungen auf gewöhnlichen Geräten zu ermöglichen.
MiniMind enthält mehrere Datensätze, wie z. B. den Tokenizer-Trainingssatz zum Trainieren des Wortsegmentierers, die Pretrain-Daten zum Vortraining des Modells, die SFT-Daten für die überwachte Feinabstimmung und die DPO-Daten 1 und DPO-Daten 2 zum Trainieren des Belohnungsmodells. Diese Datensätze werden aus verschiedenen Quellen integriert, wie etwa SFT-Daten von Jiangshu Technology, destillierte Qwen2.5-Daten usw., mit insgesamt etwa 3 Milliarden Token, die für das Vortraining großer chinesischer Sprachmodelle geeignet sind.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.