HyperAIHyperAI

Command Palette

Search for a command to run...

屋外ビジョン・言語ナビゲーションのためのマルチモーダルテキストスタイル転送

Wanrong Zhu Xin Eric Wang Tsu-Jui Fu An Yan Pradyumna Narayana Kazoo Sone Sugato Basu William Yang Wang

概要

自然言語処理(NLP)における最も挑戦的な課題の一つは、視覚的に根拠付けられた言語理解および推論である。屋外ビジョン・言語ナビゲーション(VLN)は、エージェントが自然言語による指示に従い、現実の都市環境をナビゲートするというタスクであり、その代表例である。複雑な都市風景を正確に描写する人間によるアノテーション付きの指示データが不足しているため、屋外VLNは依然として解決が困難な課題の一つである。本研究では、外部のマルチモーダルリソースを活用して屋外ナビゲーションタスクにおけるデータ不足を緩和するため、マルチモーダルテキストスタイル転送(MTST)学習アプローチを提案する。まず、Google Maps APIによって生成された指示のスタイルを転送することでナビゲーションデータを拡張し、その拡張された外部屋外ナビゲーションデータセットを用いてナビゲーターを事前学習する。実験結果から、本研究のMTST学習アプローチはモデルに依存せず、屋外VLNタスクにおいてベースラインモデルを著しく上回ることが示された。特にテストセットにおいて、タスク完了率を相対的に8.7%向上させた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています