HyperAI超神经

1 个月前

NVIDIA 发布了针对 Cosmos Predict 2.5 大型世界模型的参数高效微调指南，旨在解决机器人操控视频生成中数据收集成本高、全量微调昂贵且易导致知识遗忘的问题。该方案采用 LoRA 和 DoRA 技术，在冻结基础模型的前提下，仅训练少量适配器参数，使单卡 GPU 即可完成微调，并支持灵活切换不同领域适配器。训练过程利用 diffusers 和 accelerate 库，将数据预处理后的视频与文本提示配对。模型在 DiT 模块的注意力及前馈层注入 LoRA 或 DoRA 适配器，通过矩形流损失函数优化。实验显示，在 8 块 H100 GPU 上训练约 2.5 小时（或单卡 17 小时），即可使模型显著适应特定机器人视角和操作任务。评估结果显示，微调后的模型在几何一致性（Sampson 误差更低）、物理合理性及指令遵循度上均优于未微调的基座模型。比较发现，LoRA 与 DoRA 表现相近，但在极低秩下 DoRA 可能更稳定。秩为 32 的适配器能显著提升指令遵循能力，而秩为 8 已足以改善几何与物理一致性，表明核心物理先验仍由冻结权重承载。该研究证实，通过高效微调生成合成轨迹，可为机器人策略学习提供可扩展的替代方案，降低了真实数据采集的门槛与成本。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

Command Palette

NVIDIA Cosmos Predict 2.5：LoRA/DoRA微调生成机器人视频

相关链接

Command Palette

NVIDIA Cosmos Predict 2.5：LoRA/DoRA微调生成机器人视频

相关链接

Command Palette

NVIDIA Cosmos Predict 2.5：LoRA/DoRA微调生成机器人视频

相关链接

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果

在线教程丨最高 4 倍生成速度提升，DiffusionGemma 可同时生成整块文本，基于多轮并行去噪持续优化结果