Command Palette
Search for a command to run...
多流大语言模型:通过并行思维、输入和输出流解锁大语言模型
多流大语言模型:通过并行思维、输入和输出流解锁大语言模型
Guinan Su Yanwu Yang Xueyan Li Jonas Geiping
摘要
语言模型能力的持续提升,使其作为自主智能体(autonomous agents)驱动器的应用得以广泛普及,例如在代码生成或计算机操作等场景中。然而,自 ChatGPT 等早期指令微调模型以来,这些系统的核心架构并未发生显著变化。即便是先进的 AI 智能体,其运行机制仍基于消息交换格式,在单一计算流中依次与用户、系统、自身(即思维链,chain-of-thought)以及工具进行消息交互。这种聊天模型中单一计算流的瓶颈导致了若干局限性:智能体在读取信息时无法执行动作(生成输出),反之,在写入信息时也无法对新信息做出反应。同理,智能体在思考时无法执行动作,且在读取信息或执行动作时无法进行思考。在本研究中,我们表明,通过将指令微调从针对顺序消息格式转向针对多个并行计算流,可以将智能体从上述瓶颈中解放出来,并将每个角色分配到独立的计算流中。语言模型的每一次前向传播(forward pass)随后能够同时从多个输入流中读取信息,并在多个输出流中生成 token,所有这些输出均因果依赖于之前的时间步。我们认为,这种数据驱动的改变能够解决上述诸多可用性局限性,通过并行化提升模型效率,通过更清晰的责任分离增强模型安全性,并进一步提升模型的可监控性。
一句话总结
多流大语言模型(Multi-Stream LLMs)以并行计算流取代了指令微调模型的顺序处理流程。该架构在保持时间步之间因果依赖关系的同时,能够同时读取多个输入并生成多个输出,从而消除处理瓶颈,使自主 Agent 能够并发地进行思考、行动与信息处理。
核心贡献
- 本文提出了一种多流指令微调框架,以并行计算通道取代顺序消息交换格式,使模型能够在单次前向传播中,于不同流之间同步进行读取、推理与生成。
- 该架构为独立流分配了明确的角色,从结构上强制执行指令层级以缓解提示词注入攻击,并将内部评估感知考量外化至并行思考通道,从而提升模型的可监控性。
- 在 Stream-27B 模型上的评估表明,该格式能够并发调度多个工具调用以降低延迟,支持生成过程中的实时用户中断,并隔离不受信任的文档内容以维持稳健的性能。
引言
大语言模型已成为自主 Agent 和实时智能系统的基础组件,但其仍依赖于从早期聊天模型继承的顺序消息格式。这种单流架构强制模型逐步读取、推理并生成输出,造成计算瓶颈,不仅增加延迟、阻碍并发任务执行,还因缺乏结构化的指令层级而使系统易受提示词注入攻击。为突破这些限制,本文提出一种多流框架,以并行 token 流取代顺序聊天模板化流程,这些 token 流专门用于不同角色,如用户输入、系统指令、内部推理与工具输出。通过对模型进行指令微调,使其能够在这些独立通道上同步处理与生成,该方法实现了边读边写的连续交互,降低了首个 token 的生成时间,通过架构边界防御恶意提示词,并为实时行为监控提供了专用的审计通道。
数据集
数据集构成与来源
- 为弥补自然发生的同步对话数据稀缺问题,本文构建了合成多流训练语料库。
- 核心混合数据整合了六个涵盖数学推理、逻辑推断、医学问答、阅读理解及通用指令遵循的公开基准。
- 专门的压力测试子集使用通过 Claude Opus 4.5 至 4.7 生成的纯合成对话,以验证并行流的保持能力。
各子集关键细节
- MetaMathQA:原始包含来自 GSM8K 和 MATH 的 4 万条增强样本,处理后缩减至约 8k。
- LogicNLI:1.6 万条自然语言推理示例,筛选后保留约 8k 训练样本。
- ProofWriter:从其约 4 万条数据集中提取约 2.5 万条逻辑推理实例。
- PubMedQA:从其 6.1 万条训练池中保留约 2.6 万条医学问答样本。
- SQuAD:从超过 10 万条可用数据中采样约 1.5 万条阅读理解配对。
- Alpaca (Cleaned):从初始 5.2 万条中保留约 4.8 万条指令-回复配对。
- 合成压力测试:3,864 条十流对话,平均每条约 100 行。
- 本文将这些筛选后的子集合并用于训练,未指定具体的混合比例,而是依赖最终样本数量来平衡训练分布。
数据使用方法
- 所有选定的语料均转换为包含系统、用户及一个或多个助手流的多流格式。
- 模型在所有子集上使用相同的优化器调度与步数预算进行三个 epoch 的训练。
- 为进行基线对比,多流序列被折叠为标准单流因果语言建模输入,无需单独准备基线数据集。
- 压力测试子集专门评估预训练模型能否经过指令微调,在并行流中保持独立的内部推理角色。
处理、元数据构建及其他细节
- Wait-k 模拟:该流水线通过让助手仅在观察到 k 个用户 token 后开始回复,来模拟实时交互。k 的值在不同样本中变化,使模型暴露于不同的延迟-质量权衡场景中。
- 因果验证与上下文重建:分词序列被逆向分词为对齐至有意义边界的可读片段。LLM 裁判验证每个助手片段仅依赖于时间上可用的用户 token,丢弃或重新生成泄露未来信息的样本。
- 双层质量过滤:单流检查确保流畅性、完整性及无畸形 token。跨流检查验证每个流是否履行其指定角色。得分低于预设阈值的样本将被移除。
- 表格生成格式:纯合成数据以 markdown 表格结构逐列生成,以严格强制执行因果边界并防止非因果的跨流信息泄露。
- 元数据与评估架构:流水线输出严格的 JSON 对象,用于追踪流索引、token 步数、因果违规与质量得分。桥接话语被注入以标记提前开始的轮次,而压力测试集中的内部流被分配了明确的功能标签,如分析性思维或怀疑论。
方法
本文利用多流并行生成框架,使大语言模型(LLMs)能够在单次前向传播中同时生成多个 token 序列,从根本上改变了标准的自回归过程。该方法与传统顺序生成形成对比,传统方法每次仅生成一个 token,且仅依赖于前置 token。核心公式将 H 个并行流 {y(1),…,y(H)} 的联合概率建模为条件概率的乘积,其中流 h 中的每个 token yt(h) 不仅依赖于其自身的前置 token,还依赖于位置 t 之前所有其他流中的全部 token。这确保了所有流之间的全局因果一致性,在维持流内因果性的同时允许密集跨流依赖。
参见上述框架图,展示了从标准“Vanilla LLM”到“Multi-stream LLM”的架构演进。模型处理多个输入流,例如用户输入、系统提示词以及工具结果或记忆检索等辅助数据,并生成对应的输出流以执行面向用户的回复、内部推理与工具调用等任务。这种并行处理使模型能够同步读取、思考与行动,通过重叠这些阶段来降低延迟。图中的执行时间线展示了多流 LLM 如何并行生成不同流的 token,例如在输出“Response”的同时并发执行“Think”与“Reflection”动作,这与 vanilla LLM 的顺序阻塞式执行截然不同。
在基于 Transformer 的模型中实现该架构,需要对标准仅解码器结构进行两项关键修改。首先,采用流感知位置编码来处理多流输入。这涉及使用带有单流位置索引的旋转位置编码(RoPE)变体,每个流维护从零开始的独立计数器。此举防止了位置竞争,并确保自然的时序对齐。此外,在 token 嵌入中添加了可学习的流嵌入,以明确标识每个流的身份。其次,实现跨流因果注意力掩码以强制执行因果约束。该二元掩码确保位置 (h,t) 的查询 token 仅能关注任何流 h′ 中位置 τ<t 的键 token,从而保留所有流的全局因果顺序。
模型使用标准交叉熵损失进行训练,主要目标是使模型能够预测每个流中的正确下一个 token。为高效实现因果掩码并优化推理,采用了特定的 token 打包策略。本文采用交错打包方法,按位置顺序重新排列不同流的 token。这形成了主要呈下三角的注意力模式,对因果注意力计算高度高效,并允许复用 FlashAttention 等快速路径实现。这与产生碎片化注意力区域的顺序打包形成对比。模型的训练目标定义为所有流中所有有效 token 的交叉熵损失,损失值按每个流的 token 数量进行平均计算。
在推理阶段,模型执行同步多流解码。在每一步,单次前向传播为每个流生成一个 token,流之间以交错方式处理。每个流的模型输出均基于所有其他流的前置 token 进行条件化,确保并行流能够相互交互与影响。下图展示了该同步过程,图中多流 LLM 在生成回复的同时执行“Solving”与“Auditing”任务,用户输入流与模型内部思考流并行运行。空 token 代表给定步骤中的非活跃流,会被完全掩码,不占用键值缓存的任何内存,从而实现零内存开销。这使得推理速度在理论上达到顺序解码的 H× 倍,其中 H 为流的数量。模型生成多流的能力同样提升了可监控性,因为内部流可提供模型思考过程的“次声化”,使外部观察者能够访问其隐藏的推理过程。
实验
实验使用在标准数据集上训练的 Qwen 基础模型,在推理、安全及架构消融基准上评估多流架构。效率测试表明,将输入处理、解决方案生成与实时审计重叠至并行流中,在保持任务准确性的同时大幅降低了延迟与首个 token 延迟。安全评估证实,在架构层面隔离系统、用户与助手流会形成内置的权限层级,在不依赖对抗训练且不损害通用指令遵循能力的前提下,显著提升对直接及间接提示词注入的鲁棒性。补充消融实验验证了所选位置编码策略在管理跨流注意力冲突方面的有效性,并确认并行流在监督下能够有力支持内部推理感知。
本文在多个基准与模型规模上,将多流模型变体与基础及 vanilla 单流基线进行对比,证明多流方法在保持或轻微提升准确性的同时降低了延迟与首个 token 延迟。结果显示,token 数量与延迟指标的效率提升保持一致,且在较大模型中观察到最显著的改进。多流方法在所有基准上实现零首个 token 延迟,表明输入处理与输出生成处于并发状态。多流模型在所有基准上将首个 token 延迟降至零,使模型能够在接收输入的同时立即生成回复。与 vanilla 基线相比,多流变体的 token 与延迟等效率指标显著降低,表明推理速度更快。多流模型的准确性保持相当或略有提升,表明效率提升并未以牺牲任务性能为代价。
本文在两种模型规模上,将多流方法与 vanilla 单流方法在指令遵循任务上的性能进行对比。结果显示,多流方法在提示词级别与指令级别指标上达到相当或更优的性能,两种模型在提示词级别严格准确率与指令级别宽松准确率上均保持一致的提升。部分指标的提升更为显著,表明多流设计在提升指令遵循能力的同时未牺牲整体性能。多流方法在两种模型规模上均实现与 vanilla 基线相当或更优的指令遵循性能。多流方法在提示词级别严格准确率与指令级别宽松准确率上表现出一致的提升。性能提升在提示词级别严格准确率上更为明显,表明对系统指令的遵循程度得到增强。
本文在多个推理与问答基准上,将多流模型变体与基础及 vanilla 单流基线进行对比。多流方法在达到相当或更高准确性的同时,大幅降低了“首个目标 token 的 token 数量”与延迟等延迟指标,且在部分基准上效率提升最为显著。响应速度的提升在不同模型规模与任务中保持一致,表明并行处理在不损害性能的前提下降低了首个 token 延迟。多流模型达到与 vanilla 及基础模型相当的准确性,同时显著降低了“首个目标 token 的 token 数量”与延迟等指标。该方法在多个基准上消除了首个 token 延迟,使流式推理过程中的响应时间更快。效率提升在不同模型规模与任务中保持一致,证明了多流架构的可扩展性。
本文在多个可监控性相关评估指标上,将多流模型变体与基线模型进行对比。结果显示,提出的多流方法在“对齐伪装感知”、“监控即分类器准确率”及“关切次声化”指标上得分更高,表明内部推理能力增强且隐蔽行为可检测性提升。改进在不同模型规模中保持一致,表明多流架构增强了模型阐述内部监控与关切的能力,即使这些内容未反映在最终输出中。多流模型在“对齐伪装感知”与“监控即分类器准确率”上优于基线。提出的方法表现出更高的“关切次声化”水平,表明对隐含关切的内部识别能力更好。性能提升在不同模型规模中保持一致,表明多流设计具备良好的可扩展性。
本文在多样化的基准与模型规模上,将多流架构与基础及单流基线进行对比,验证了并行流处理在保持核心任务准确性的同时,显著降低推理延迟并消除首个 token 延迟。独立的安全与可解释性实验表明,流隔离在不依赖对抗训练的情况下自然缓解了提示词注入攻击,并通过提升对齐伪装感知与内部关切检测能力增强了可监控性。综合这些定性发现证实,所提设计在不同模型规模下均能稳定提供效率、安全性与透明度收益,且不损害整体能力。