8ヶ月前

ロボティクス

自然言語処理

エージェント

アプローチ／フレームワーク

自然言語処理

Pierre-Louis Guhur Shizhe Chen Ricardo Garcia Makarand Tapaswi Ivan Laptev Cordelia Schmid

概要

人間の環境において、ロボットは単純な自然言語の指示を受けて多様な操作タスクを達成することが期待されています。しかし、ロボットの操作は微細な運動制御、長期記憶、そして未経験のタスクや環境への汎化能力を必要とするため、極めて困難です。これらの課題に対処するため、我々は複数の入力を考慮した統一的なトランスフォーマーに基づくアプローチを提案します。特に、我々のトランスフォーマー構造は（i）自然言語の指示と（ii）多視点シーン観測を統合し、（iii）観測と行動の完全な履歴を追跡します。このようなアプローチにより、履歴と指示との間の依存関係を学習し、複数視点を使用して操作精度を向上させることができます。我々は提案手法を難易度の高いRLBenchベンチマークおよび実世界のロボットで評価しました。特に注目に値するのは、当該手法が74種類もの異なるRLBenchタスクにスケールし、最先端技術を上回ったことです。また、指示条件付きタスクにも対応し、未経験の変異に対する優れた汎化性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ロボティクス

自然言語処理

エージェント

アプローチ／フレームワーク

自然言語処理

Pierre-Louis Guhur Shizhe Chen Ricardo Garcia Makarand Tapaswi Ivan Laptev Cordelia Schmid

概要

人間の環境において、ロボットは単純な自然言語の指示を受けて多様な操作タスクを達成することが期待されています。しかし、ロボットの操作は微細な運動制御、長期記憶、そして未経験のタスクや環境への汎化能力を必要とするため、極めて困難です。これらの課題に対処するため、我々は複数の入力を考慮した統一的なトランスフォーマーに基づくアプローチを提案します。特に、我々のトランスフォーマー構造は（i）自然言語の指示と（ii）多視点シーン観測を統合し、（iii）観測と行動の完全な履歴を追跡します。このようなアプローチにより、履歴と指示との間の依存関係を学習し、複数視点を使用して操作精度を向上させることができます。我々は提案手法を難易度の高いRLBenchベンチマークおよび実世界のロボットで評価しました。特に注目に値するのは、当該手法が74種類もの異なるRLBenchタスクにスケールし、最先端技術を上回ったことです。また、指示条件付きタスクにも対応し、未経験の変異に対する優れた汎化性能を示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています