Command Palette

Search for a command to run...

4ヶ月前

DualTHOR: 両腕ヒューマノイドシミュレーションプラットフォームによる予測計画

DualTHOR: 両腕ヒューマノイドシミュレーションプラットフォームによる予測計画

要約

実世界のシナリオで複雑な対話型タスクを遂行できる具現化エージェントの開発は、具現化AIにおける基本的な課題となっています。最近のシミュレーションプラットフォームの進歩により、具現化ビジョン言語モデル(VLM)の訓練に使用されるタスクの多様性が大幅に向上しましたが、多くのプラットフォームは単純化されたロボット形態に依存し、低レベル実行の確率的な性質を無視しているため、実世界のロボットへの転送可能性が制限されています。これらの問題に対処するため、AI2-THORの拡張版に基づいて複雑な二腕ヒューマノイドロボット用の物理ベースシミュレーションプラットフォームDualTHORを提案します。当社のシミュレータには、実世界のロボットアセット、二腕協調用タスksamite、およびヒューマノイドロボット用逆運動学ソルバが含まれています。また、物理学に基づく低レベル実行を通じて潜在的な失敗を取り入れる予期せぬ事態メカニズムも導入しており、これにより実世界シナリオとのギャップを埋めることができます。当社のシミュレータを使用することで、家庭環境でのVLMの堅牢性と汎化能力をより包括的に評価することが可能になります。広範な評価結果から、現在のVLMは二腕調整に苦戦し、予期せぬ事態のある現実的な環境では堅牢性が限定的であることが明らかになりました。これは、当社のシミュレータを使用してより高度なVLMを開発することの大切さを示しています。コードは https://github.com/ds199895/DualTHOR.git で利用可能です。修正后的翻译:実世界のシナリオで複雑な対話型タスクを遂行できる具現化エージェント(embodied agents)を開発することは、具現化AIにおける基本的な課題となっています。近年、シミュレーションプラットフォームにおいて大きな進展があり、具現化ビジョン言語モデル(Vision Language Models, VLMs)を訓練するためのタスク多様性が大幅に向上しました。しかし、多くのプラットフォームは単純化されたロボット形態(robot morphologies)に依存し、低レベル実行(low-level execution)における確率的な性質を無視しているため、これらは実世界ロボットへの転送可能性(transferability)が制限されています。これらの問題に対処するために、本研究ではAI2-THORの拡張版に基づいた物理ベースシミュレーションプラットフォーム「DualTHOR」を提案します。このシミュレータには実世界ロボットアセット(real-world robot assets)、二腕協調用タスクスイート(task suite for dual-arm collaboration)、およびヒューマノイドロボット用逆運動学ソルバ(inverse kinematics solvers for humanoid robots)が含まれています。さらに、「DualTHOR」では物理学に基づく低レベル実行を通じて潜在的な失敗を取り入れる予期せぬ事態メカニズム(contingency mechanism)も導入しており、これにより実世界シナリオとのギャップを埋めることができます。このシミュレータを使用することで、家庭環境でのVLMの堅牢性と汎化能力をより包括的に評価することが可能になります。広範な評価結果から明らかになったのは、現在のVLMは二腕調整に苦戦し(struggle with dual-arm coordination)、予期せぬ事態のある現実的な環境では堅牢性が限定的であるということです(exhibit limited robustness in realistic environments with contingencies)。これは、「DualTHOR」のようなシミュレータを使用してより高度なVLMを開発することの大切さを強調しています。コードは https://github.com/ds199895/DualTHOR.git で公開されています。

コードリポジトリ

ds199895/dualthor
公式
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DualTHOR: 両腕ヒューマノイドシミュレーションプラットフォームによる予測計画 | 論文 | HyperAI超神経