HyperAI超神经
Back to Headlines

Hugging Face 推出 SmolLM3:30 亿参数实现长上下文多语言推理

2 days ago

近日,Hugging Face发布了一款名为SmolLM3的新版“Smol”语言模型。这款模型以其仅30亿参数的小巧架构,实现了在长上下文和多语言推理中的卓越表现。与大多数需要超过70亿参数才能支持高上下文能力的模型相比,SmolLM3不仅性能出色,而且成本更低,更适合运行在资源受限的硬件上。 概览 SmolLM3是一款紧凑型、多语言、双重模式的长上下文语言模型,能处理长达128,000个标记(tokens)的序列。它在11万亿个标记的数据集上进行了训练,使其能够与Mistral、LLaMA 2和Falcon等顶级模型相抗衡。尽管体积较小,SmolLM3在工具使用和少样本推理方面仍表现出色,这些能力通常只有双倍或三倍其大小的模型才能具备。 长上下文推理(可达128,000个标记):SmolLM3采用了改进的注意力机制,能够高效处理极长的上下文,这对于涉及长文档、日志或结构化记录的任务至关重要,有助于提高理解和准确性。 双重模式推理:SmolLM3的指令调优版本支持开放生成和结构化推理两种模式。这种设计使模型适用于从RAG(Retrieval-Augmented Generation)管道到代理工作流的广泛应用场景。 多语言支持:SmolLM3是在一个多语言语料库上训练的,支持六种语言:英语、法语、西班牙语、德语、意大利语和葡萄牙语。它在XQuAD和MGSM等多个基准测试中表现优异,在不同语言间的性能下降最小。 小身材大能力:尽管只有30亿参数,SmolLM3在多个下游任务上的性能接近甚至超过了如Mistral-7B等较大规模的模型。这得益于其庞大的高质量训练数据(11万亿个标记)和精心设计的架构。 工具使用与结构化输出:SmolLM3在基于提示的工作流和结构化输出任务中表现出色。它能正确遵循由模式驱动的输入-输出约束,与需要确定性行为的系统良好集成,如自主代理和API驱动环境。 SmolLM3是在内部混合数据集上训练的,这些数据包括高质量的网页内容、代码、学术论文和多语言来源。整个11万亿个标记的训练过程使用了多节点分布式策略和GPU集群,通过Flash Attention v2等优化手段,实现了高效的长序列训练。模型采用了128,000个标记的SentencePiece分词器,所有支持的语言共享这套分词器。 为了支持长上下文,Hugging Face采用线性和分组注意力机制,减少了二次复杂度,保持了性能。这使得SmolLM3在训练和推理过程中都能处理长达128,000个标记的上下文,避免了大型密集变换器在这一规模下常见的内存瓶颈问题。SmolLM3在多个多语言和推理基准测试中表现出色,尽管它在一些测试中未能超越最新的70亿和130亿参数模型,但其性能与参数比却是同类模型中最高的之一。 SmolLM3代表了新一代的小而强大的语言模型。它结合了多语言支持、长上下文处理和强推理能力,全部封装在一个仅30亿参数的轻量级模型中,这是模型效率和可访问性方面的重要进步。Hugging Face的这次发布表明,通过适当的训练配方和架构设计,小型模型同样可以在复杂的任务中发挥出色的性能。

Related Links