Command Palette

Search for a command to run...

2 个月前

机器学习LLM:在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习

Haoyu Dong Pengkun Zhang Mingzhe Lu Yanzhen Shen Guolin Ke

机器学习LLM:在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习

摘要

大型语言模型(LLMs)具备广泛的世界知识和强大的通用推理能力,但在标准机器学习(ML)任务上,难以从大量上下文示例中进行有效学习,即仅通过上下文学习(In-Context Learning, ICL)而无需梯度下降来利用多示例演示。为此,我们提出了 MachineLearningLM,这是一个轻量级的持续预训练框架,能够在保留通用知识与推理能力的基础上,为通用语言模型赋予强大的上下文学习机器学习能力,从而支持更广泛的对话式工作流。我们的预训练过程从数百万个结构因果模型(Structural Causal Models, SCMs)中合成机器学习任务,涵盖最多达1,024个示例的样本量。我们首先采用随机森林作为教师模型,将基于树的决策策略蒸馏至语言模型中,以增强其在数值建模任务中的鲁棒性。所有任务均通过一种高效的标记序列化方式组织,显著提升了上下文窗口内的示例承载能力——相比传统方法,可容纳3至6倍更多的示例,并通过批量推理实现高达50倍的 amortized(摊销)吞吐量提升。尽管仅使用了相对轻量的配置(Qwen-2.5-7B-Instruct 搭配 LoRA 秩为8),MachineLearningLM 在金融、物理、生物和医疗等多个领域上的分布外表格分类任务中,平均性能优于多个强基准模型(如 GPT-5-mini),提升约15%。该模型展现出显著的多示例缩放规律:随着上下文示例数量从8个增加至1,024个,准确率呈单调上升趋势。在未进行任何任务特定微调的前提下,其在数百个示例的情况下即可达到与随机森林相当的性能水平。同时,模型的通用对话能力(包括知识掌握与逻辑推理)得以完整保留,在 MMLU 测试集上取得了75.4%的得分。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
机器学习LLM:在数百万个合成表格预测任务上持续预训练语言模型以实现上下文内机器学习 | 论文 | HyperAI超神经