一、教程简介

ROCKET-2 是由 CraftJarvis 团队于 2025 年 3 月 21 日推出的跨视图目标对齐的视觉运动控制框架。专注于解决机器人领域中的复杂任务控制问题。该项目通过创新的多视角目标对齐技术，显著提升了视觉运动策略（Visuomotor Policy）在动态环境中的泛化能力与可控性。相关论文成果为 ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment 。

本教程采用资源为单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型展开对话

使用步骤

进入 Tutorial 查看教程指南

进入 Customize Environment 选择你要加载的环境

进入 Launch Rocket 加载环境

进入 Specify Goal 选择目标点位和交互方式

进入 Launch Rocket 的 Setting Panel 选择模型

进入 Launch Rocket 的 Control Panel 设置推理步骤并进行推理

将步骤 4-6 重复执行，直至推理过程完成。随后，进入 Record Video 模式创建并下载视频。该视频无法在线播放。

引用信息

本项目引用信息如下：

@article{cai2025rocket,
  title={ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment},
  author={Cai, Shaofei and Mu, Zhancun and Liu, Anji and Liang, Yitao},
  journal={arXiv preprint arXiv:2503.02505},
  year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

3 个月前

大小

1016.39 MB

标签

Agent

许可证

MIT

GitHub

CraftJarvis/ROCKET-2

论文 URL

2503.02505

一、教程简介

本教程采用资源为单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 1-2 分钟后刷新页面。

2. 进入网页后，即可与模型展开对话

使用步骤

进入 Tutorial 查看教程指南

进入 Customize Environment 选择你要加载的环境

进入 Launch Rocket 加载环境

进入 Specify Goal 选择目标点位和交互方式

进入 Launch Rocket 的 Setting Panel 选择模型

进入 Launch Rocket 的 Control Panel 设置推理步骤并进行推理

将步骤 4-6 重复执行，直至推理过程完成。随后，进入 Record Video 模式创建并下载视频。该视频无法在线播放。

引用信息

本项目引用信息如下：

@article{cai2025rocket,
  title={ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment},
  author={Cai, Shaofei and Mu, Zhancun and Liu, Anji and Liang, Yitao},
  journal={arXiv preprint arXiv:2503.02505},
  year={2025}
}

该教程由社区用户贡献，仅供交流学习使用。如内容涉及侵权，请联系邮箱 [email protected] 以便及时审查和下架。

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

2 个月前

腾讯混元 HunyuanVideo-Foley

1 个月前

OCRFlux-3B：智能文本识别工具包

3 个月前

kyutai-tts-1.6 b-en_fr 音频生成

1 个月前

PaddleOCR-VL：多模态文档解析

3 个月前

VibeVoice-Realtime TTS：实时语音合成服务

2 个月前

JarvisArt-Preview 智能照片修饰代理

1 个月前

Krea-realtime-video：实时视频生成模型

3 个月前

Depth-Anything-3：从任何视角恢复视觉空间

2 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ROCKET-2：3D 游戏零样本迁移

一、教程简介

二、项目示例

三、运行步骤

引用信息

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ROCKET-2：3D 游戏零样本迁移

一、教程简介

二、项目示例

三、运行步骤

引用信息

相关教程

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

PaddleOCR-VL：多模态文档解析

VibeVoice-Realtime TTS：实时语音合成服务

JarvisArt-Preview 智能照片修饰代理

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ROCKET-2：3D 游戏零样本迁移

一、教程简介

二、项目示例

三、运行步骤

引用信息

相关教程

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

PaddleOCR-VL：多模态文档解析

VibeVoice-Realtime TTS：实时语音合成服务

JarvisArt-Preview 智能照片修饰代理

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

用 AI 构建 AI

HyperAI Newsletters

相关教程

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

PaddleOCR-VL：多模态文档解析

VibeVoice-Realtime TTS：实时语音合成服务

JarvisArt-Preview 智能照片修饰代理

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间

相关教程

Supertonic：基于 ONNX 的极速 TTS 语音合成模型

腾讯混元 HunyuanVideo-Foley

OCRFlux-3B：智能文本识别工具包

kyutai-tts-1.6 b-en_fr 音频生成

PaddleOCR-VL：多模态文档解析

VibeVoice-Realtime TTS：实时语音合成服务

JarvisArt-Preview 智能照片修饰代理

Krea-realtime-video：实时视频生成模型

Depth-Anything-3：从任何视角恢复视觉空间