19日前

メタラーニングを用いた記憶付き視覚音声インテリアナビゲーションにおけるマルチモーダル集約アプローチ

Liqi Yan, Dongfang Liu, Yaoxian Song, Changbin Yu
メタラーニングを用いた記憶付き視覚音声インテリアナビゲーションにおけるマルチモーダル集約アプローチ
要約

視覚と音声は、エージェントの相互作用および学習において重要な要素である。本論文では、音声コマンドを受信し、視覚観測のマルチモーダル情報を分析することで、ロボットの環境理解を向上させる新しい屋内ナビゲーションモデル、Memory Vision-Voice Indoor Navigation(MVV-IN)を提案する。本モデルは、1人称視点の単眼カメラによって取得された単一のRGB画像を用いる。また、エージェントが重要な領域に継続的に注目できるように、自己注意(self-attention)機構を導入する。エージェントが不要なタスクの繰り返しを避け、新しいシーンに適切に適応するためには記憶の機能が不可欠であるため、メタラーニングを活用する。視覚観測から抽出したさまざまな機能特徴を検証した実験を行った結果、比較実験により、本手法が最先端のベースライン手法を上回ることを確認した。

メタラーニングを用いた記憶付き視覚音声インテリアナビゲーションにおけるマルチモーダル集約アプローチ | 論文 | HyperAI超神経