1. チュートリアルの概要

ROCKET-2は、CraftJarvisチームによって2025年3月21日に発表された、クロスビューターゲットアライメント視覚運動制御フレームワークです。ロボット工学における複雑なタスク制御問題の解決に重点を置いています。革新的なマルチビューターゲットアライメント技術により、このプロジェクトは動的環境における視覚運動ポリシーの汎化能力と制御性を大幅に向上させます。関連研究論文もご覧いただけます。 ROCKET-2: クロスビュー目標アライメントによる視覚運動ポリシーのステアリング。

このチュートリアルでは、リソースとして単一の RTX 5090 カードを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

利用手順

チュートリアルガイドを表示するにはチュートリアルへ進んでください

環境のカスタマイズに入り、ロードしたい環境を選択します

Launch Rocketのロード環境に入る

目標を指定し、ターゲットポイントとインタラクション方法を選択します

Launch Rocketの設定パネルに入り、モデルを選択します

Launch Rocketのコントロールパネルに入り、推論ステップを設定し、推論を実行します。

推論プロセスが完了するまで手順 4 ～ 6 を繰り返します。次に、ビデオ録画モードに入り、ビデオを作成してダウンロードします。このビデオはオンラインでは利用できません。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{cai2025rocket,
  title={ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment},
  author={Cai, Shaofei and Mu, Zhancun and Liu, Anji and Liang, Yitao},
  journal={arXiv preprint arXiv:2503.02505},
  year={2025}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

3ヶ月前

サイズ

1016.39 MB

タグ

エージェント

ライセンス

MIT

GitHub

CraftJarvis/ROCKET-2

論文URL

2503.02505

1. チュートリアルの概要

このチュートリアルでは、リソースとして単一の RTX 5090 カードを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

利用手順

チュートリアルガイドを表示するにはチュートリアルへ進んでください

環境のカスタマイズに入り、ロードしたい環境を選択します

Launch Rocketのロード環境に入る

目標を指定し、ターゲットポイントとインタラクション方法を選択します

Launch Rocketの設定パネルに入り、モデルを選択します

Launch Rocketのコントロールパネルに入り、推論ステップを設定し、推論を実行します。

推論プロセスが完了するまで手順 4 ～ 6 を繰り返します。次に、ビデオ録画モードに入り、ビデオを作成してダウンロードします。このビデオはオンラインでは利用できません。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{cai2025rocket,
  title={ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment},
  author={Cai, Shaofei and Mu, Zhancun and Liu, Anji and Liang, Yitao},
  journal={arXiv preprint arXiv:2503.02505},
  year={2025}
}

Supertonic: ONNXに基づく高速TTS音声合成モデル

2ヶ月前

テンセント・フンユアンビデオ・フォーリー

1ヶ月前

OCRFlux-3B: インテリジェントテキスト認識ツールキット

3ヶ月前

kyutai-tts-1.6 b-en_fr オーディオ生成

1ヶ月前

PaddleOCR-VL: マルチモーダルドキュメント解析

3ヶ月前

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

2ヶ月前

JarvisArt-プレビュースマート写真レタッチプロキシ

1ヶ月前

Krea-realtime-video: リアルタイムビデオ生成モデル

3ヶ月前

Depth-Anything-3: あらゆる視点から視覚空間を復元する

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ROCKET-2: 3Dゲームゼロショット転送

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

ROCKET-2: 3Dゲームゼロショット転送

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

引用情報

関連 ノートブック

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

OCRFlux-3B: インテリジェントテキスト認識ツールキット

kyutai-tts-1.6 b-en_fr オーディオ生成

PaddleOCR-VL: マルチモーダルドキュメント解析

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

JarvisArt-プレビュー スマート写真レタッチプロキシ

Krea-realtime-video: リアルタイムビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

AIでAIを構築

HyperAI Newsletters

Command Palette

ROCKET-2: 3Dゲームゼロショット転送

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

引用情報

関連 ノートブック

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

OCRFlux-3B: インテリジェントテキスト認識ツールキット

kyutai-tts-1.6 b-en_fr オーディオ生成

PaddleOCR-VL: マルチモーダルドキュメント解析

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

JarvisArt-プレビュー スマート写真レタッチプロキシ

Krea-realtime-video: リアルタイムビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

OCRFlux-3B: インテリジェントテキスト認識ツールキット

kyutai-tts-1.6 b-en_fr オーディオ生成

PaddleOCR-VL: マルチモーダルドキュメント解析

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

JarvisArt-プレビュー スマート写真レタッチプロキシ

Krea-realtime-video: リアルタイムビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

関連 ノートブック

Supertonic: ONNXに基づく高速TTS音声合成モデル

テンセント・フンユアンビデオ・フォーリー

OCRFlux-3B: インテリジェントテキスト認識ツールキット

kyutai-tts-1.6 b-en_fr オーディオ生成

PaddleOCR-VL: マルチモーダルドキュメント解析

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

JarvisArt-プレビュー スマート写真レタッチプロキシ

Krea-realtime-video: リアルタイムビデオ生成モデル

Depth-Anything-3: あらゆる視点から視覚空間を復元する

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ

関連ノートブック

JarvisArt-プレビュースマート写真レタッチプロキシ