HyperAIHyperAI

Command Palette

Search for a command to run...

FLAME: Lernen, mit multimodalen LLMs in städtischen Umgebungen zu navigieren

Yunzhe Xu Yiyuan Pan Zhe Liu Hesheng Wang

Zusammenfassung

Große Sprachmodelle (GSM) haben in Vision-und-Sprach-Navigation (VSN) Aufgaben ein Potenzial gezeigt, doch aktuelle Anwendungen stehen vor Herausforderungen. Obwohl GSM in allgemeinen Konversationszenarien hervorragend abschneiden, haben sie Schwierigkeiten mit spezialisierten Navigationsaufgaben und erzielen im Vergleich zu spezialisierten VSN-Modellen eine unteroptimale Leistung. Wir stellen FLAME (FLAMingo-Architektur-basierte verkörperte Agent) vor, einen neuen multimodalen GSM-agenten und -aufbau, der für städtische VSN-Aufgaben entwickelt wurde und effizient mehrere Beobachtungen verarbeitet. Unser Ansatz implementiert eine dreistufige Feinabstimmungstechnik zur wirksamen Anpassung an Navigationsaufgaben, einschließlich der Einzelperzeptionsfeinabstimmung für die Beschreibung von Straßenansichten, der Mehrfachperzeptionsfeinabstimmung für die Zusammenfassung von Routen und dem End-to-End-Training auf VSN-Datensätzen. Die erweiterten Datensätze werden automatisch synthetisiert. Experimentelle Ergebnisse zeigen FLAMEs Überlegenheit gegenüber bestehenden Methoden; es übertreffen die Standesder Technik um 7,3 % in der Aufgabenerfüllungsrate im Touchdown-Datensatz. Diese Arbeit verdeutlicht das Potenzial multimodaler GSM (MGSM) in komplexen Navigationsaufgaben und stellt einen Fortschritt in Richtung auf Anwendungen von MGSM im Bereich der verkörperten Intelligenz dar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp