6ヶ月前

マルチモーダル

視覚質問応答

自然言語処理

自然言語処理

マルチモーダル

Alexander Ku Peter Anderson Roma Patel Eugene Ie Jason Baldridge

概要

本稿では、新たな視覚・言語ナビゲーション（VLN）データセット「Room-Across-Room（RxR）」を紹介する。RxRは英語、ヒンディ語、テルグ語の多言語対応であり、他のVLNデータセットと比較してより大規模（より多くの経路と指示文）である。本データセットは、経路に見られる既知のバイアスを是正し、視認可能な実体への言語的参照をより多く引き出すことで、言語がVLNにおいて果たす役割に重点を置いている。さらに、各指示文内の単語が、指示作成者および検証者の仮想的な姿勢（pose）と時間的に同期されている。単言語および多言語設定、およびRoom-to-Roomのアノテーションを含むマルチタスク学習におけるベースラインスコアを設定した。また、人間のデモンストレーションで注目されたパノラマの一部にのみ注目することで、同期された姿勢トレースから学習するモデルの性能も提示している。RxRの規模、範囲、詳細さは、模擬的かつ写実的な環境における体現型言語エージェントに関する研究の前線を著しく拡大している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

マルチモーダル

視覚質問応答

自然言語処理

自然言語処理

マルチモーダル

Alexander Ku Peter Anderson Roma Patel Eugene Ie Jason Baldridge

概要

本稿では、新たな視覚・言語ナビゲーション（VLN）データセット「Room-Across-Room（RxR）」を紹介する。RxRは英語、ヒンディ語、テルグ語の多言語対応であり、他のVLNデータセットと比較してより大規模（より多くの経路と指示文）である。本データセットは、経路に見られる既知のバイアスを是正し、視認可能な実体への言語的参照をより多く引き出すことで、言語がVLNにおいて果たす役割に重点を置いている。さらに、各指示文内の単語が、指示作成者および検証者の仮想的な姿勢（pose）と時間的に同期されている。単言語および多言語設定、およびRoom-to-Roomのアノテーションを含むマルチタスク学習におけるベースラインスコアを設定した。また、人間のデモンストレーションで注目されたパノラマの一部にのみ注目することで、同期された姿勢トレースから学習するモデルの性能も提示している。RxRの規模、範囲、詳細さは、模擬的かつ写実的な環境における体現型言語エージェントに関する研究の前線を著しく拡大している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています