阿里开源Qwen3:全新“混合”推理模型可切换快慢思考,性能超越Llama4
阿里巴巴近期宣布开源最新的Qwen3系列“混合”推理模型,包括Qwen3-235B-A22B等,该模型最大的特点是可以“开关快慢思考”,旨在实现更灵活、高效的推理能力。根据官方描述,Qwen3-235B-A22B模型在多个重要领域的推理能力上全面超越了Llama 4模型。 这一技术突破主要经历了四个关键步骤: 首先,长记忆链冷启动(Long-CoT Cold Start),通过利用多样化的长记忆链数据对模型进行微调,涵盖了数学、代码、逻辑推理以及STEM(科学、技术、工程、数学)等领域,从而增强模型的基础推理能力。 其次是长记忆链强化学习(Long-CoT Reasoning RL),进一步通过对模型进行大规模的强化学习训练,借助基于规则的奖励机制来提升模型的探索能力和深入研究能力。 接着是思维模式融合(Thinking Mode Fusion),将包含长记忆链的数据与日常指令微调数据相结合,确保非思考模式的能力无损整合到思考模式中,使模型既能保持高推理水平又能快速响应。 最后一步为通用强化学习(General RL),这一步是在涵盖指令遵循、格式遵守和代理能力等多个通用任务领域内应用强化学习技术,逐步加强模型的全面性和纠正不良行为,进一步提升其在实际应用场景中的性能。 对于较小的轻量级模型,则采用“蒸馏”的方法进行优化。通过流程图显示,整个“蒸馏”过程利用了经历过四阶段复杂训练的前导模型作为“教师模型”,将其能力转移给参数量相对较小的“学生模型”。这种做法不仅能够显著缩小模型规模,还能使其在较小的架构下继承强大小型模型的强大特性。 阿里巴巴的这项创新引发了广泛关注,尤其是在人工智能领域。业内人士认为,这是人工智能模型向更加智能、高效方向发展的重要一步。通过这种方式,模型不仅可以处理复杂的推理任务,还能够在简单任务中表现出色,这对于推动AI技术的实际应用具有重要意义。阿里巴巴一直以来都是中国乃至全球领先的互联网技术公司,这次开源也体现了其在技术创新方面的领导力和开放姿态。