Multimodale Aggregationsansatz für die Gedächtnisbasierte Vision-Stimme-Innenraumnavigation mit Meta-Lernen

Vision und Sprache sind zwei entscheidende Schlüssel für die Interaktion und das Lernen von Agenten. In diesem Paper präsentieren wir ein neuartiges Modell für die Indoor-Navigation namens Memory Vision-Voice Indoor Navigation (MVV-IN), das Sprachbefehle empfängt und multimodale Informationen aus visuellen Beobachtungen analysiert, um das Umweltverständnis von Robotern zu verbessern. Wir nutzen dazu einzelne RGB-Bilder, die von einer ersten-Perspektive-Monokamera aufgenommen werden. Zudem setzen wir eine Selbst-Attention-Mechanismus ein, um den Agenten darauf zu fokussieren, auf zentrale Bereiche zu achten. Gedächtnis ist entscheidend dafür, dass der Agent unnötige Wiederholungen bestimmter Aufgaben vermeidet und sich ausreichend an neue Szenen anpassen kann; daher greifen wir auf Meta-Learning zurück. Wir haben verschiedene funktionale Merkmale, die aus visuellen Beobachtungen extrahiert wurden, experimentell untersucht. Vergleichsexperimente zeigen, dass unsere Methode die aktuellen State-of-the-Art-Baselines übertrifft.