Command Palette

Search for a command to run...

2ヶ月前

Robix:ロボットインタラクション、推論および計画のための統合モデル

Huang Fang Mengxi Zhang Heng Dong Wei Li Zixuan Wang Qifeng Zhang Xueyun Tian Yucheng Hu Hang Li

Robix:ロボットインタラクション、推論および計画のための統合モデル

要約

本稿では、視覚言語アーキテクチャ内にロボットの推論、タスク計画、自然言語インタラクションを統合した統合型モデル「Robix」を紹介する。Robixは階層的ロボットシステムにおける高レベル認知層として機能し、低レベルコントローラー向けの原子的コマンドおよび人間との対話向けの自然な応答を動的に生成することで、複雑な指示の遂行、長期にわたるタスク計画、人間との自然な対話が可能なエンドツーエンドフレームワークを実現する。さらに、Robixはタスク実行中に積極的対話、リアルタイムでの中断処理、文脈に応じた常識的推論といった新たな機能を導入している。本モデルの中心となるのは、チェーン・オブ・サウス(Chain-of-Thought)推論の活用であり、以下の三段階の学習戦略を採用している:(1)継続的事前学習により、3次元空間理解、視覚的接地(visual grounding)、タスク中心の推論を含む、基礎的な身体化された推論能力を強化;(2)教師あり微調整により、人間-ロボットインタラクションとタスク計画を統一的な推論-行動シーケンスとしてモデル化;(3)強化学習により、推論と行動の整合性および長期タスクの一貫性を向上させる。広範な実験により、Robixがオープンソースおよび商用のベースライン(例:GPT-4o、Gemini 2.5 Pro)を上回る性能を発揮することが示された。特に、開かれた形の指示、多段階指示、制約付き指示、無効な指示、中断された指示など多様な指示タイプにおいて優れた汎化能力を示し、テーブルの片付け、スーパーでの買い物、食事制限のフィルタリングなど、ユーザーが関与する多様なタスクにおいても高い実行性能を達成している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Robix:ロボットインタラクション、推論および計画のための統合モデル | 論文 | HyperAI超神経