NVIDIA Cosmos Predict 2.5:LoRA/DoRA微调生成机器人视频
NVIDIA 发布了针对 Cosmos Predict 2.5 大型世界模型的参数高效微调指南,旨在解决机器人操控视频生成中数据收集成本高、全量微调昂贵且易导致知识遗忘的问题。该方案采用 LoRA 和 DoRA 技术,在冻结基础模型的前提下,仅训练少量适配器参数,使单卡 GPU 即可完成微调,并支持灵活切换不同领域适配器。 训练过程利用 diffusers 和 accelerate 库,将数据预处理后的视频与文本提示配对。模型在 DiT 模块的注意力及前馈层注入 LoRA 或 DoRA 适配器,通过矩形流损失函数优化。实验显示,在 8 块 H100 GPU 上训练约 2.5 小时(或单卡 17 小时),即可使模型显著适应特定机器人视角和操作任务。评估结果显示,微调后的模型在几何一致性(Sampson 误差更低)、物理合理性及指令遵循度上均优于未微调的基座模型。 比较发现,LoRA 与 DoRA 表现相近,但在极低秩下 DoRA 可能更稳定。秩为 32 的适配器能显著提升指令遵循能力,而秩为 8 已足以改善几何与物理一致性,表明核心物理先验仍由冻结权重承载。该研究证实,通过高效微调生成合成轨迹,可为机器人策略学习提供可扩展的替代方案,降低了真实数据采集的门槛与成本。
