Command Palette
Search for a command to run...
TxT360-3efforts Multi-Task Inference Dataset
Datum
Paper-URL
Lizenz
CC BY 4.0
TxT360-3efforts ist ein umfangreicher Trainingsdatensatz für Sprachmodelle zum überwachten Feinabstimmen (SFT), der 2025 von der Mohamed bin Zayed Universität für Künstliche Intelligenz veröffentlicht wurde. Die zugehörige Publikation ist… K2-V2: Ein 360°-offener, auf logisches Denken ausgerichteter LLM-StudiengangZiel ist es, die drei Inferenzstärken des Modells mithilfe von Chatvorlagen zu steuern.
Dieser Datensatz umfasst ca. 10 Millionen Beispiele und 10 Milliarden Trainings-Token und deckt neun Aufgabenkategorien ab: Mathematik, Programmierung, allgemeiner Dialog, STEM-logisches Denken, Befolgen von Anweisungen, Werkzeugaufruf, Agententrajektorie, Modellierung der Selbstidentität und sichere Ausrichtung. Er enthält zahlreiche mehrrundige Dialoge und Beispiele mit verifizierbaren Einschränkungen. Die Daten stammen aus öffentlich zugänglichen, lizenzierten Datensätzen oder hochwertigen synthetischen Daten und wurden einer strengen Qualitätsprüfung, Deduplizierung und Benchmark-Bereinigung unterzogen. Die Antworten werden primär von GPT-OSS-120B mit unterschiedlichen Inferenzintensitäten generiert. Der Datensatz unterscheidet explizit zwischen niedriger, mittlerer und hoher Inferenzintensität mithilfe einer einheitlichen Chatvorlage. Dadurch kann das Modell während des Trainings lernen, die Generierungslänge und die Inferenztiefe an die jeweiligen Inferenzanforderungen anzupassen.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.