HyperAIHyperAI

Command Palette

Search for a command to run...

HOP:視覚言語ナビゲーションのための履歴および順序に配慮した事前学習

Yanyuan Qiao Yuankai Qi Yicong Hong Zheng Yu Peng Wang Qi Wu

概要

最近の視覚・言語ナビゲーション(VLN)に関する研究のいくつかでは、事前学習(pre-training)が導入されている。しかし、従来のVLN向け事前学習手法は、将来の行動を予測する能力に欠けているか、あるいはナビゲーションの経路文脈を無視しているという課題を抱えている。これらはグリーディなナビゲーションプロセスにおいて不可欠な要素である。本研究では、時空間的な視覚・テキスト対応関係の学習およびエージェントの意思決定能力の向上を促進するため、過去の観測情報を活用し、将来の行動予測を可能にするVLN特有の目的関数を採用した、新たな履歴・順序に配慮した事前学習枠組み(HOP: History-and-Order aware Pre-training)を提案する。具体的には、一般的に用いられるマスク言語モデリング(MLM)およびトラジェクトリ・インストラクションマッチング(TIM)に加えて、時間的順序情報をモデル化するための2つの代理タスクを設計した。すなわち、トラジェクトリ順序モデリング(TOM)およびグループ順序モデリング(GOM)である。さらに、過去の視覚的認識を考慮した行動予測タスク(APH: Action Prediction with History)を導入することで、ナビゲーション行動予測の性能を向上させた。4つの下流タスク(R2R、REVERIE、NDH、RxR)における広範な実験結果から、提案手法が複数の最先端エージェントと比較して優れた効果を示すことが明らかになった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HOP:視覚言語ナビゲーションのための履歴および順序に配慮した事前学習 | 記事 | HyperAI超神経