Command Palette
Search for a command to run...
Kairos:面向物理人工智能的原生世界模型栈
Kairos:面向物理人工智能的原生世界模型栈
摘要
世界模型正从被动的视觉生成器转变为物理智能(Physical AI)的基础性、操作性基础设施:它们必须原生地从异构经验中获取世界知识,在长时域内维持持久状态,并在实际部署约束下高效执行。我们提出 Kairos,这是一个围绕上述需求设计的原生世界模型栈。(1)Kairos 通过学习世界,开创了由跨具身数据课程(Cross-Embodiment Data Curriculum)主导的原生预训练范式,该范式将开放世界视频、人类行为数据与机器人交互组织成一条渐进式发展路径。(2)Kairos 通过原生统一架构内的统一世界理解、生成与预测来维持世界,该架构配备了混合线性时间注意力机制,其中滑动窗口注意力捕捉局部动态,膨胀滑动窗口捕捉中程依赖,门控线性注意力维持持久的全局记忆。我们建立了严格的理论界限,证明这种时间分解严格限制了误差累积,从数学上保证了状态在扩展时域内的传播。(3)Kairos 通过引入部署感知系统协同设计来运行世界,以支持在服务器级与消费级硬件上实现低延迟的 rollout 生成,从而服务于现实世界中的“观察-行动-反馈”闭环。在具身世界模型、长时域及动作策略基准测试上的实验表明,Kairos 实现了顶级性能,同时提供了显著的效率与能力权衡。综上所述,这些结果将 Kairos 定位为未来自演化物理智能的一体化操作基础。
一句话总结
Kairos 是面向物理 AI 的原生世界模型栈,它将跨具身数据课程与统一架构相结合,该架构采用混合线性时间注意力机制,从理论上限制误差累积;集成面向部署的系统协同设计,以在服务器级和消费级硬件上实现低延迟 rollout;并在具身、长视野及动作策略基准测试中取得顶尖性能。
核心贡献
- Kairos 提出了一种由跨具身数据课程主导的原生预训练范式,该课程将开放世界视频、人类行为数据与机器人交互结构化,形成获取基础物理知识的渐进式发展路径。该课程使模型能够原生地学习跨具身表征。
- Kairos 采用原生统一架构,通过结合滑动窗口、膨胀窗口与门控线性注意力的混合线性时间注意力机制,集成世界理解、生成与预测。形式化的理论边界证明,这种时间分解严格限制了误差累积,并保证了在长视野范围内的稳定状态传播。
- 面向部署的系统协同设计优化了 rollout 生成,以在服务器级和消费级硬件上实现低延迟推理,从而支持现实世界中的观测-动作-反馈闭环。在 LIBERO-plus 和 RoboTwin 2.0 上的评估表明,该模型在具身与长视野基准测试中均取得顶尖性能,同时保持了卓越的效率与能力平衡。
引言
世界模型正从被动视频生成器转变为物理 AI 的基础底层架构,必须在现实机器人应用中支持具身交互、时间预测与持续适应。现有系统面临关键瓶颈,包括从异构数据源碎片化获取知识、因误差累积与二次方注意力成本而无法在长视野内维持全局状态一致性、以及世界理解与可执行控制之间持续存在的差距,同时难以满足闭环部署所需的严格延迟与内存约束。作者提出 Kairos,这是一个原生世界模型栈,它整合跨具身数据课程以从头合成物理定律与行为语义,采用混合线性时间记忆机制以线性复杂度保证持续的状态传播,并实施面向部署的协同设计,以便在边缘硬件上为未来的自演化 Agent 实现实时、低延迟推理。
数据集
-
数据集构成与来源: 作者通过结合开源公共资源与大量内部专有数据,为 Kairos 世界模型构建了混合数据集。公开来源包括 Koala-36M、Openhumanvid 和 VidGen 等通用视频数据集,以及 AgiBotWorld-Beta 和 Droid 等专用机器人语料库。内部数据通过涵盖人类、机器人、通用场景与物理现象四大领域的层次化分类法进行收集,涉及数千万个叶节点。该专有数据集合还包含人类操作的第一人称中心视角记录,以填补细粒度交互场景的空白。该流程从数百万小时的原始素材中累积了数亿条标准化片段。
-
核心子集详情: 开源子集通过大规模多样化视觉样本提供基础主干。内部互联网子集通过分类法中的数百个二级类别和数千个三级类别提供细粒度覆盖。内部第一人称中心视角子集提供公共存储库中缺失的高精度操作数据。初步清洗步骤移除损坏文件、重复项以及短于 5 秒的片段。数据集采用渐进式过滤策略进行策展,为不同的训练阶段提供高质量、低噪声的样本。
-
使用与处理: 数据构成模型的核心训练池,作者应用多维度质量评估以提升数据纯度。文本元数据经过增强以改进模型能力;带有物理标签的说明明确描述了重力、摩擦与碰撞动力学等底层规律。人类与机器人交互的长视野任务数据包含分解的因果链与可执行子步骤,以支持序列一致性。在早期训练阶段,基于由文本区域比例得出的 OCR 分数,排除文本过多的视频以促进收敛。
-
裁剪、元数据与工程化: 原始视频使用 PySceneDetect 配合多种检测器进行分割,以实现高精度与高召回率。片段长度限制在 5 到 40 秒之间,较长镜头被拆分为 20 秒片段,较短镜头则被丢弃,以平衡时空完整性与训练效率。元数据构建涉及多项评分过滤:基于 CLIP 预测器的美学质量评分、使用 RAFT 光流法的运动强度评分、通过 ViT-Large 判别器的 AIGC 检测、通过 Falonsai 的 NSFW 过滤、通过拉普拉斯算子的模糊度评估,以及使用 YOLOX 和 ByteTrack 的人类运动跟踪。去重操作在可扩展池中采用 CLIP 嵌入,当相似度超过阈值时仅保留高分辨率版本。作者通过分布式调度、CPU 并发解码、FP16 混合精度以及用于镜头检测、帧过滤与字幕生成的流水线架构,优化数据工程基础设施,使吞吐量提升超过 30 倍。
方法
作者提出 Kairos,这是一个原生世界模型栈,旨在从被动视觉生成器转变为物理 AI 的基础架构。如框架概览所示:
该架构以观测与指令为输入以预测未来状态,涵盖视频生成与策略执行。系统组织为三大核心运行范式:生成式世界模型、交互式世界模型与表征式世界模型。此设计使系统能够高效扩展,维持原生预训练能力,并支持跨具身数据策展,同时确保推理效率与安全性。
不同于依赖模块化平台级集成,Kairos 采用单一内生主干网络,原生统一世界理解、生成与预测。详见架构流程:
多模态输入经过视觉-语言模型与状态编码器处理,形成统一嵌入空间。这些嵌入作为条件输入至混合 Transformer 扩散 Transformer 主干网络,该网络在共享潜在空间内联合建模 video and action tokens。统一的条件输入使扩散模型能够利用高级语义指导,同时保留潜在扩散框架的表达力。
主干架构基于混合线性注意力机制构建,旨在满足效率、长视野建模与可扩展性要求。如 DiT 块结构所示:
每个块集成缩放与平移操作、多头交叉注意力、前馈网络与门控机制。为管理不同尺度下的时间依赖关系,模型交错排列三种不同的注意力路径。滑动窗口注意力捕获局部动态,膨胀滑动窗口注意力扩展中程交互的感受野,门控线性注意力以线性复杂度维持全局因果记忆。
注意力模块的内部机制如下所示:
门控线性注意力模块作为长程信息传播的主要机制,解决了原始线性 Transformer 中的关键冲突问题。每个时间步的计算涉及特征提取,查询、键与值向量在投影的同时结合软写入强度门控。记忆检索对旧值与新值进行插值,随后执行 delta 状态更新,以剔除过时关联并写入新信息。该过程在数学上等价于在线回归损失的随机梯度下降单步更新。为进一步控制全局遗忘,衰减门自适应调节前一状态的贡献,确保精确的关联校正与自适应长期记忆管理。
多阶段训练流程在课程图中概述如下:
为使模型与物理现实对齐,作者利用跨具身数据课程,系统地将模型从被动观测演进至主动机器人控制。训练过程分为三个渐进阶段。初始阶段专注于使用大规模网页级视频数据集进行物理预训练,以内化通用时空动态与物理定律。随后课程过渡到以人类为中心的行为对齐,模型从人类演示中学习任务结构化语义与因果后果。最后,联合世界-动作训练阶段将所学先验锚定于机器人特定交互数据中,协同优化视频与动作组件以弥合感知与执行之间的差距。
在优化阶段,模型采用流匹配作为主要目标,学习连续时间条件速度场,将样本从高斯噪声传输至潜在空间中的数据分布。训练损失定义为预测速度与真实速度之间的均方误差:
LFM(θ)=Ez0,ϵ,σ,c[∥Vθ(zσ,σ,c)−uσ∥22].为应对不同的视频长度与分辨率,调度器采用形状感知指数时间步长偏移策略,动态将步长重新分配至对预测误差敏感的路径区域。联合优化促使模型学习共享的世界-动作表征,隐式地将环境状态转移与机器人决策对齐,同时支持部署时仅动作的高效推理。定性生成结果展示了模型的能力:

实验
评估在硬件效率测试、具身与通用世界建模基准、动作规划任务及长视野生成等方面对 Kairos-4B 进行全面检验,以验证其计算可扩展性、物理推理与策略规划能力。硬件与延迟分析表明,该模型在多种 GPU 上实现线性性能扩展与实时生成,同时在内存与计算效率方面显著优于体积更大的竞品。综合基准测试结合人工评估证实,尽管参数量紧凑,Kairos-4B 在机器人视频合成与通用视频合成中均提供最先进的物理合理性、指令遵循度与任务完成度。此外,消融研究与长周期实验验证了以人类为中心预训练、联合生成预测优化与稳定时间扩展共同促成了强健且符合物理规律的世界建模与可靠的长视野规划。
作者在 WorldModelBench 基准上评估 Kairos 模型,并将其与基线模型在文生视频与图生视频模式下进行对比。结果表明,Kairos 提供具有竞争力的性能,经常超越参数量相近的模型,同时展现出强大的指令遵循与物理遵循能力。此外,模型表现出稳健的常识推理能力,尤其在时间一致性方面。Kairos 在图生视频与文生视频模式下均取得具有竞争力的总分,优于同等规模的模型。该模型展现出强大的指令遵循与物理遵循能力,在各类物理类别中保持高分。与基线竞品相比,Kairos 展现出稳健的常识推理能力,尤其在时间一致性指标上。
作者将 Kairos-4B 模型与多种基线进行对比,证明其在领域质量与总体质量评分中小规模模型中表现最佳。结果表明,Kairos 与大型模型高度竞争,尤其在维持视觉一致性与跨领域生成高质量视频方面。Kairos 在领域评分与总体评分中小规模模型中位列第一。该模型在其参数范围内取得最高的主体与背景一致性分数。Kairos 展现出强劲的运动一致性,与其他小规模模型的最高性能持平。
关于具身人类中心预训练的消融研究表明,使用人类中心数据显著提升模型在 LIBERO-Plus 基准上的性能。结果表明,在训练过程中纳入人类中心数据具有明显优势,从而获得更高的平均分数。这证实了人类中心预训练在具身任务中的有效性。纳入人类中心预训练数据使基准平均分数大幅提高。使用人类中心数据训练的模型优于缺乏该数据的基线模型。实验结果验证了人类中心数据在提升具身任务性能方面的有效性。
作者针对镜头检测、帧过滤与字幕生成三项核心操作,评估了优化视频处理流水线相对于基线的效率。结果表明,优化方法利用先进的调度与解码策略,为所有任务带来显著加速。优化流水线在镜头检测、帧过滤与字幕生成任务中均取得显著加速。关键效率提升由分布式调度、帧跳过与并发处理等技术驱动。与基线相比,帧过滤与字幕生成表现出最显著的性能改进。
作者在 VideoPhy 基准上评估 Kairos 与多种基线模型的物理推理能力。结果表明,Kairos 取得最高平均分,超越体积更小与显著更大的竞品模型。这证明了模型的高参数效率以及生成符合现实物理规律视频的能力。在被评估的模型中,Kairos 在 VideoPhy 基准上取得最高平均分。尽管参数量较少,该模型仍优于体积大得多的 Cosmos-Predict2.5-14B。与 Wan2.2-5B 和 Cosmos-Predict2.5-2B 相比,Kairos 展现出更优的物理推理与语义遵循能力。
评估在文生视频、图生视频与物理推理基准上检验 Kairos 模型,验证其相较于同等规模与更大基线模型在指令遵循、时间一致性与现实物理遵循方面的优越性。针对具身任务的消融研究证实,人类中心预训练大幅提升了该领域的模型性能。此外,优化视频处理流水线与标准方法对比测试表明,通过先进调度与并发执行,在镜头检测、帧过滤与字幕生成方面实现显著计算加速。综合而言,这些实验确立 Kairos 为高参数效率的生成模型,同时验证了定向预训练与流水线优化的有效性。