Command Palette

Search for a command to run...

2 个月前

Hunyuan-MT 技术报告

Mao Zheng Zheng Li Bingxin Qu Mingyang Song Yang Du Mingrui Sun Di Wang

Hunyuan-MT 技术报告

摘要

在本报告中,我们介绍了 Hunyuan-MT-7B——我们的首个开源多语言翻译模型。该模型支持33种主要语言之间的双向翻译,并特别注重普通话与若干少数民族语言及方言之间的翻译任务。为进一步应对多样化的翻译场景并提升模型在推理阶段的性能,我们提出了 Hunyuan-MT-Chimera-7B,该模型受“慢思考”模式启发,通过整合 Hunyuan-MT-7B 在不同参数设置下生成的多个输出结果,实现了优于传统基于思维链(Chain-of-Thought, CoT)的慢思考模型的性能表现。我们模型的开发采用了一套专为多语言翻译任务设计的全流程训练策略:首先进行通用预训练与面向机器翻译的预训练,以构建基础能力;随后通过监督微调(Supervised Fine-Tuning, SFT)实现任务特定的适应;最终通过强化学习(Reinforcement Learning, RL)以及弱到强的强化学习策略完成高级对齐。通过全面的实验验证,我们证明 Hunyuan-MT-7B 与 Hunyuan-MT-Chimera-7B 在参数规模相近的专用翻译模型中表现卓越,显著优于大多数当前最优(SOTA)的大规模模型,尤其在普通话与少数民族语言及方言之间的翻译任务上优势明显。在 WMT2025 共享任务(通用机器翻译)中,我们的模型在31个语言对中取得了30项第一的成绩,展现出在广泛语言谱系上的强大鲁棒性。这些语言涵盖中文、英文、日文等高资源语言,也包括捷克语、马拉地语、爱沙尼亚语和冰岛语等低资源语言。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供