HyperAIHyperAI

Command Palette

Search for a command to run...

FLAME: 多モーダルLLMを用いた都市環境でのナビゲーション学習

Yunzhe Xu Yiyuan Pan Zhe Liu Hesheng Wang

概要

大規模言語モデル(LLMs)は、視覚と言語を組み合わせたナビゲーション(VLN)タスクにおいて潜在能力を示していますが、現行の応用では課題が残っています。これらのモデルは一般的な会話シナリオでは優れた性能を発揮しますが、専門的なナビゲーションタスクでは苦戦し、専門的なVLNモデルに比べて劣る結果となっています。本稿では、都市部のVLNタスク向けに設計された新しいマルチモーダルLLMベースのエージェントおよびアーキテクチャであるFLAME(FLAMingo-Architected Embodied Agent)を紹介します。このアプローチは、効果的にナビゲーションタスクへの適応を実現するための3段階チューニング技術を実装しており、ストリートビューの説明用の単一感覚チューニング、ルート要約用の複数感覚チューニング、そしてVLNデータセットでのエンドツーエンド学習が含まれています。拡張されたデータセットは自動的に合成されています。実験結果は、FLAMEが既存手法よりも優れていることを示しており、Touchdownデータセットにおけるタスク完了率で最新手法に対して7.3%の向上を達成しています。本研究は、複雑なナビゲーションタスクにおけるマルチモーダルLLM(MLLMs)の可能性を示し、具現化知能分野でのMLLMs応用への進歩を代表しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています