HyperAI超神经
Back to Headlines

Unbabel 推出 TOWER+:实现高保真翻译与多语言任务的完美平衡

18 days ago

研究人员近日推出了名为TOWER+的新型多语言模型框架,该框架旨在提高大规模语言模型在翻译和多语言通用任务中的性能。这一项目由Unbabel与葡萄牙和法国的多个学术机构合作完成,包括Instituto de Telecomunicações、Instituto Superior Técnico、Universidade de Lisboa(Lisbon ELLIS Unit)、MICS CentraleSupélec和Université Paris-Saclay。研究团队开发了三种不同参数规模的变体,分别是20亿、90亿和720亿参数,以探索翻译专业化与广泛语言能力之间的权衡。 目前,许多大型语言模型(LLMs)在训练时往往采用并行语料库进行微调,以提高翻译质量。然而,这种微调通常会削弱模型在指令遵循和对话任务中的表现。此外,现有的多用途模型在专业保真度方面也难以达到企业级的要求。这导致了一个瓶颈,即如何在保持高质量翻译的同时,还能处理代码生成、问题解决和特定用户格式化等任务。 为了解决这一问题,TOWER+采用了统一的训练管道,包含四个阶段:持续预训练、监督微调、偏好优化和强化学习。具体来说: 持续预训练:利用精心筛选的数据集,包括单语内容、过滤后的并行句子和少量类似指令的例子,继续进行模型预训练。 监督微调:通过结合翻译任务和多样化的指令遵循场景(如代码生成、数学问题解决和问答)来进一步优化模型。 偏好优化:使用加权偏好优化和基于离线信号及人工编辑翻译版本的组相对策略更新,来训练模型更好地满足特定需求。 强化学习:通过可验证的奖励机制,强化模型对转换指南的精确遵守,其中包括正则表达式检查和偏好注释,从而增强模型在翻译过程中遵循明确指令的能力。 经过这些训练步骤,TOWER+在多个基准测试中取得了显著的成果。特别是: TOWER+ 9B模型在多语言通用聊天提示(M-ArenaHard)上赢率达到了33.47%,在XCOMET-XXL(覆盖24种语言对)中得分84.38。 旗舰版72B模型在M-ArenaHard上的赢率为54.52%,在IFEval指令遵循评分中得分为89.02,在WMT24++的全部基准测试中的XCOMET-XXL得分达到83.29。在综合翻译和指令遵循评测(IF-MT)中,其表现为4.85/88.51,再次证明了其在开放权重模型中的领先地位。 2B版本的模型也在多项测试中表现出色,即使尺寸较小,也在M-ArenaHard上达到了6.33%的赢率,IF-MT翻译质量得分为87.65。 与GPT-4O-1120、Claude-Sonnet-3.7、ALMA-R、GEMMA-2和LLAMA-3.3等现有模型相比,TOWER+在专业化任务和通用任务上均表现出色或超越。研究人员表示,他们的方法为构建同时具备高翻译质量和对话能力的语言模型提供了可重现的方案,减少了模型的多样化和运营开销。 TOWER+的成功不仅在于技术上的突破,更在于它为未来的多语言大模型开发提供了一个可靠的框架。这一框架在翻译保真度、指令遵循和通用聊天能力之间实现了帕累托最优平衡,展示了其在企业和研究应用中的潜力。业内人士认为,TOWER+的出现将推动多语言大模型在企业部署中的广泛应用,尤其是在需要高度定制化和灵活性的场景下。 Unbabel是一家专注于多语言内容自动化翻译的技术公司,成立于2013年。该公司多年来一直致力于通过人工智能和大数据技术改善语言翻译的质量和效率。此次推出的TOWER+是对Unbabel技术实力的又一重要展示。

Related Links