7ヶ月前

視覚質問応答

マルチモーダル表現

ロボティクス

マルチモーダル

Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton van den Hengel

概要

自然言語の指示を実行できるロボットは、ジェッツンズ（The Jetsons）というアニメシリーズが注意深いロボット助手たちによって仲介される余暇の生活を想像した以前から夢であり続けています。この夢は未だに遠く感じられますが、最近の視覚と言語に関する手法の進歩により、密接に関連する分野で驚異的な進展が見られています。これは重要です。なぜなら、ロボットが見たものを基にして自然言語のナビゲーション指示を解釈することは、視覚質問応答（Visual Question Answering）と類似した視覚と言語処理であるからです。両方のタスクは、視覚的に根ざした系列対系列翻訳問題として解釈でき、多くの同じ手法が適用可能であることが示されています。視覚的に根ざしたナビゲーション指示の解釈に視覚と言語の手法を適用し、その研究を促進するために、我々は Matterport3D シミュレーターを提示します。これは実際の画像に基づいた大規模な強化学習環境です。このシミュレーターは将来、様々な具現化された視覚と言語タスクをサポートする可能性があり、実際の建物における視覚的に根ざした自然言語ナビゲーションの最初のベンチマークデータセット -- Room-to-Room (R2R) データセットを提供しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル表現

ロボティクス

マルチモーダル

Peter Anderson Qi Wu Damien Teney Jake Bruce Mark Johnson Niko Sünderhauf Ian Reid Stephen Gould Anton van den Hengel

概要

自然言語の指示を実行できるロボットは、ジェッツンズ（The Jetsons）というアニメシリーズが注意深いロボット助手たちによって仲介される余暇の生活を想像した以前から夢であり続けています。この夢は未だに遠く感じられますが、最近の視覚と言語に関する手法の進歩により、密接に関連する分野で驚異的な進展が見られています。これは重要です。なぜなら、ロボットが見たものを基にして自然言語のナビゲーション指示を解釈することは、視覚質問応答（Visual Question Answering）と類似した視覚と言語処理であるからです。両方のタスクは、視覚的に根ざした系列対系列翻訳問題として解釈でき、多くの同じ手法が適用可能であることが示されています。視覚的に根ざしたナビゲーション指示の解釈に視覚と言語の手法を適用し、その研究を促進するために、我々は Matterport3D シミュレーターを提示します。これは実際の画像に基づいた大規模な強化学習環境です。このシミュレーターは将来、様々な具現化された視覚と言語タスクをサポートする可能性があり、実際の建物における視覚的に根ざした自然言語ナビゲーションの最初のベンチマークデータセット -- Room-to-Room (R2R) データセットを提供しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

視覚言語ナビゲーション：実環境における視覚的に基づいたナビゲーション指示の解釈 | 記事 | HyperAI超神経