德国团队推出DeepSeek变体R1T2:速度提升200%,更高效更简洁
德国团队 TNG Technology Consulting GmbH 基于 DeepSeek R1-0528 模型,推出了一款名为 R1T2 的新型变体模型,该模型的推理速度提升了200%,同时保持了较高的智能水平。R1T2 拥有6710亿参数,是一个开源混合模型,旨在解决 DeepSeek-R1-0528 倾向于长篇回答的问题。 DeepSeek-R1-0528 以其强大的推理能力和详细的回答著称,但这些特性有时会导致较长的响应时间。为此,TNG 团队采用了他们此前提出的“集合专家”(AoE, Assembly-of-Experts)方法,通过有选择地合并多个预训练模型的权重张量来构建 R1T2。具体来说,R1T2 集成了三个父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。这些模型各自具有不同的优势,如推理能力、结构化思维模式和简洁的语言风格。TNG 团队通过插值权重张量,使 R1T2 能够继承这些优秀特性,同时大幅减少了冗余输出,从而提高了推理效率和速度。 与传统的“混合专家”(MoE, Mixture-of-Experts)方法相比,AoE 不是在运行时动态激活不同的专家模块,而是在模型构建阶段有选择地合并多个预训练模型的权重张量。这种方法可以在线性时间内创建高效的子模型,从而更好地利用对预训练模型的投资。在实际测试中,R1T2 的输出 token 量仅为 DeepSeek-R1-0528 的40%,这意味着推理时间和计算成本显著降低。此外,R1T2 的简洁性也提高了约20%,使其在保持高质量推理的同时更加高效。 AI 开发者社区对 R1T2 的发布表示了积极的反应。Hugging Face 的高级领导 Vaibhav Srivastav 在社交媒体上写道:“太棒了!R1T2 比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 数据集上的表现明显优于 R1,采用 DS V3、R1 和 R1-0528 组合打造了集合专家架构,且使用 MIT 许可协议,目前已在 Hugging Face 上开放。” R1T2 带来了多项优势,尤其适合需要高推理质量和低冗余的应用。首先,推理成本显著降低,每项任务所需的 GPU 时间和能耗减少,特别是在高吞吐量或实时环境中。其次,R1T2 能够提供简洁且高质量的推理答案,这对于数学、编程和逻辑等结构化任务尤为重要。最后,R1T2 采用 MIT 许可协议,支持完全的部署控制和定制,可以在受监管或隔离环境中进行私有托管、模型对齐或进一步训练。