HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen

Haoyu Dong Pengkun Zhang Mingzhe Lu Yanzhen Shen Guolin Ke

Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen

Abstract

Große Sprachmodelle (LLMs) verfügen über umfassendes Weltwissen und starke allgemeine Schlussfolgerungsfähigkeiten, stoßen jedoch bei Standardaufgaben des maschinellen Lernens (ML) auf Schwierigkeiten, wenn es darum geht, aus zahlreichen Beispielen im Kontext zu lernen – also reine Many-Shot-Demonstrationen ausschließlich mittels In-Context-Learning (ICL) ohne Gradientenabstieg zu nutzen. Wir stellen MachineLearningLM vor, einen portablen Fortbildungsfeldrahmen, der ein allgemein einsetzbares LLM mit robuster In-Context-ML-Fähigkeit ausstattet, während dessen allgemeines Wissen und Schlussfolgerungspotenzial für breitere Chat-Workflows erhalten bleibt.Unser Vortraining-Verfahren synthetisiert ML-Aufgaben aus Millionen struktureller kausaler Modelle (SCMs), wobei die Anzahl der Beispiele bis zu 1.024 reicht. Wir starten mit einem Random-Forest-Teacher, um baum-basierte Entscheidungsstrategien in das LLM zu übertragen und die Robustheit im numerischen Modellieren zu stärken. Alle Aufgaben werden mit einem token-effizienten Prompt serialisiert, was eine 3- bis 6-fach höhere Anzahl an Beispielen pro Kontextfenster ermöglicht und bei Batch-Inferenz bis zu 50-fach höhere amortisierte Durchsatzleistung erzielt.Trotz einer einfachen Konfiguration (Qwen-2.5-7B-Instruct mit LoRA-Rang 8) übertrifft MachineLearningLM starke LLM-Baselines (z. B. GPT-5-mini) im Durchschnitt um etwa 15 % bei Out-of-Distribution-Aufgaben der tabellarischen Klassifikation über die Bereiche Finanzen, Physik, Biologie und Gesundheitswesen hinweg. Es zeigt eine bemerkenswerte Many-Shot-Skalierungsgesetzmäßigkeit: Die Genauigkeit steigt monoton an, wenn die Anzahl der im Kontext verfügbaren Demonstrationen von 8 auf 1.024 ansteigt. Ohne jegliche aufgabe-spezifische Trainingsphase erreicht es bei Hunderten von Beispielen Genauigkeiten auf Niveau von Random Forests. Die allgemeinen Chat-Fähigkeiten, einschließlich Wissensbasis und Schlussfolgerungskapazität, bleiben erhalten: Es erzielt eine Leistung von 75,4 % auf dem MMLU-Test.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Machine Learning LM: Fortgesetztes Vortrainieren von Sprachmodellen auf Millionen synthetischer tabellarischer Vorhersageaufgaben skaliert kontextbasiertes maschinelles Lernen | Forschungsarbeiten | HyperAI