德国实验室发布新版本DeepSeek R1T2:速度提升200%,推理更精准,输出更简洁
中国人工智能初创公司DeepSeek在近期推出了其开源模型的最新版本——DeepSeek R1-0528。DeepSeek是香港高飞投资管理公司的衍生项目,以其低廉的训练成本和出色的推理能力赢得了AI及全球商业界的关注。这一最新的版本继承了之前的优势,并且再次免费向开发者和企业开放。 德国公司TNG Technology Consulting GmbH基于DeepSeek R1-0528开发出了名为DeepSeek-TNG R1T2 Chimera的新模型。R1T2不仅显著提升了效率和速度,还在不牺牲智能水平的前提下大大缩短了输出长度。根据TNG发布于Hugging Face(一个人工智能代码分享社区)的模型卡显示,R1T2比原版DeepSeek R1快20%,比DeepSeek的官方5月份更新版本R1-0528还要快两倍以上。这意味着在生成响应时,它的计算成本更低、响应时间更快。 TNG的技术论文阐述了他们使用的装配专家(AoE)方法,这是一种通过选择性合并多个预训练模型内部参数来创建新模型的技术。不同于混合专家(MoE)架构中不同组件根据输入条件被激活的方式,AoE是在合并时选择性地插入来自多个模型的专业组件。这种方法允许R1T2从三个父级模型——DeepSeek R1-0528、R1和V3-0324——继承优势,实现了高效的推理能力和精简的输出。 R1T2的设计理念是在保证智能的基础上减少冗长的输出。对比于DeepSeek R1-0528倾向于产生详细而长的回答,R1T2能够以少于40%的输出词数达到相似的认知性能标准。这在实际应用中意味着更低的推理成本和更高的处理速度,对于企业级的应用场景非常有利。此外,与原版R1相比,R1T2也更加简洁,平均节省了20%的计算资源。 TNG强调,在部署DeepSeek-TNG R1T2 Chimera时,用户应考虑某些限制。目前该模型不建议用于需要调用函数或工具的场景,因为这些功能受到了来自其父级模型之一DeepSeek R1的限制。同时,欧洲地区的使用者需要注意即将到来的《欧盟人工智能法》合规问题,该法案将于2025年8月2日正式生效。对于只服务美国客户的美国公司,则不受该法的规定限制,可以灵活应用此模型。 TNG Technology Consulting GmbH成立于2001年1月,总部位于德国巴伐利亚州,拥有超过900名员工,其中许多具有博士学位和技术专长。该公司专注于软件开发、人工智能以及DevOps和云服务,服务对象覆盖了电信、保险、汽车、电商和物流等多个大型行业客户。此次R1T2 Chimera模型的发布进一步巩固了TNG作为开放源码社区积极参与者的地位,展现了其持续推动技术创新和公开共享的价值观。 总体来说,DeepSeek-TNG R1T2 Chimera代表了大型语言模型领域的一个重要进步。它证明了通过模型间组件的有效合并,无需传统的梯度下降训练就能实现性能和成本上的优化。这对于追求快速响应、高性价比解决方案的企业和技术决策者来说具有重大意义,同时,其开源特性为后续的个性化定制和功能扩展提供了无限可能。 这一成果为未来的参数空间插值实验树立了典范,鼓励更多的科研人员和业界专业人士探索更模块化、更易于解释的语言模型开发途径。随着技术的不断成熟,我们有望看到更多的创新涌现。