HyperAIHyperAI

Command Palette

Search for a command to run...

Multimodale Aggregationsansatz für die Gedächtnisbasierte Vision-Stimme-Innenraumnavigation mit Meta-Lernen

Liqi Yan Dongfang Liu Yaoxian Song Changbin Yu

Zusammenfassung

Vision und Sprache sind zwei entscheidende Schlüssel für die Interaktion und das Lernen von Agenten. In diesem Paper präsentieren wir ein neuartiges Modell für die Indoor-Navigation namens Memory Vision-Voice Indoor Navigation (MVV-IN), das Sprachbefehle empfängt und multimodale Informationen aus visuellen Beobachtungen analysiert, um das Umweltverständnis von Robotern zu verbessern. Wir nutzen dazu einzelne RGB-Bilder, die von einer ersten-Perspektive-Monokamera aufgenommen werden. Zudem setzen wir eine Selbst-Attention-Mechanismus ein, um den Agenten darauf zu fokussieren, auf zentrale Bereiche zu achten. Gedächtnis ist entscheidend dafür, dass der Agent unnötige Wiederholungen bestimmter Aufgaben vermeidet und sich ausreichend an neue Szenen anpassen kann; daher greifen wir auf Meta-Learning zurück. Wir haben verschiedene funktionale Merkmale, die aus visuellen Beobachtungen extrahiert wurden, experimentell untersucht. Vergleichsexperimente zeigen, dass unsere Methode die aktuellen State-of-the-Art-Baselines übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multimodale Aggregationsansatz für die Gedächtnisbasierte Vision-Stimme-Innenraumnavigation mit Meta-Lernen | Paper | HyperAI