HyperAIHyperAI

Command Palette

Search for a command to run...

メタラーニングを用いた記憶付き視覚音声インテリアナビゲーションにおけるマルチモーダル集約アプローチ

Liqi Yan Dongfang Liu Yaoxian Song Changbin Yu

概要

視覚と音声は、エージェントの相互作用および学習において重要な要素である。本論文では、音声コマンドを受信し、視覚観測のマルチモーダル情報を分析することで、ロボットの環境理解を向上させる新しい屋内ナビゲーションモデル、Memory Vision-Voice Indoor Navigation(MVV-IN)を提案する。本モデルは、1人称視点の単眼カメラによって取得された単一のRGB画像を用いる。また、エージェントが重要な領域に継続的に注目できるように、自己注意(self-attention)機構を導入する。エージェントが不要なタスクの繰り返しを避け、新しいシーンに適切に適応するためには記憶の機能が不可欠であるため、メタラーニングを活用する。視覚観測から抽出したさまざまな機能特徴を検証した実験を行った結果、比較実験により、本手法が最先端のベースライン手法を上回ることを確認した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
メタラーニングを用いた記憶付き視覚音声インテリアナビゲーションにおけるマルチモーダル集約アプローチ | 記事 | HyperAI超神経