HyperAI超神经
Back to Headlines

百度开源 ERNIE 4.5:从 0.3B 到 424B 参数的多功能语言模型系列

15 days ago

百度近日宣布开源其最新的 ERNIE 4.5 系列模型,这是一系列旨在增强语言理解、推理和生成能力的基础模型。此次发布的模型包括十个不同版本,参数量从 0.3B 到 424B 不等。这些模型已经通过 Hugging Face 向全球的研究人员和开发者开放,使得更多人能够接触到尖端的中文及多语言自然语言处理技术。 ERNIE 4.5 系列基于百度之前发布的 ERNIE 模型,在架构上进行了重大改进,引入了密集模型(Dense)和稀疏激活混合专家(Mixture-of-Experts, MoE)设计。特别是在 MoE 架构方面,通过在每个输入令牌中仅激活少数专家(通常为 64 个中的 2 个),这些模型能够有效地增加参数数量,同时保持性能和泛化能力。例如,ERNIE 4.5-MoE-3B 和 ERNIE 4.5-MoE-47B 版本在推理过程中仅激活 3B 参数,而实际上它们各自拥有 3B 和 47B 的总参数量。 这些模型的训练采用了监督微调(SFT)、人类反馈强化学习(RLHF)以及对比校准技术。训练数据集涵盖了中文和英文领域的 5.6 万亿词元,利用百度专有的多阶段预训练管道进行训练。最终训练出的模型在指令跟随、多轮对话、长文生成和推理等方面表现出色。 ERNIE 4.5 在多个关键的中文和多语言自然语言处理任务中取得了显著进展。根据官方技术报告,这些模型在指令跟随任务中受益于对比微调,表现出了更好的用户意图对齐能力和更低的幻觉率。此外,ERNIE 4.5 还在多轮对话和长文生成任务中表现出色,尤其是在需要记忆和跨长文档或会话的推理任务中,部分变体支持长达 128K 的上下文长度,大大提升了处理复杂任务的能力。 ERNIE 4.5 系列标志着开源人工智能发展的重要一步,提供了一套多样化且高性能的模型,特别适合多语言环境下的任务。百度公开从 0.3B 参数到 424B 参数的各种模型版本,显示了其在包容和透明的 AI 研究方面的决心。通过在 Hugging Face 上发布详细的文档和支持材料,ERNIE 4.5 将有望加速全球范围内自然语言理解和生成技术的发展。 业内专家表示,ERNIE 4.5 的开源发布将极大推动自然语言处理领域的研究和技术进步。百度作为中国领先的互联网和技术公司之一,其在 AI 领域的持续投入和发展已经获得了国际认可。这次发布不仅是百度技术实力的体现,也是其推动 AI 研究开放和合作的重要举措。

Related Links