FLAME: Lernen, mit multimodalen LLMs in städtischen Umgebungen zu navigieren

Große Sprachmodelle (GSM) haben in Vision-und-Sprach-Navigation (VSN) Aufgaben ein Potenzial gezeigt, doch aktuelle Anwendungen stehen vor Herausforderungen. Obwohl GSM in allgemeinen Konversationszenarien hervorragend abschneiden, haben sie Schwierigkeiten mit spezialisierten Navigationsaufgaben und erzielen im Vergleich zu spezialisierten VSN-Modellen eine unteroptimale Leistung. Wir stellen FLAME (FLAMingo-Architektur-basierte verkörperte Agent) vor, einen neuen multimodalen GSM-agenten und -aufbau, der für städtische VSN-Aufgaben entwickelt wurde und effizient mehrere Beobachtungen verarbeitet. Unser Ansatz implementiert eine dreistufige Feinabstimmungstechnik zur wirksamen Anpassung an Navigationsaufgaben, einschließlich der Einzelperzeptionsfeinabstimmung für die Beschreibung von Straßenansichten, der Mehrfachperzeptionsfeinabstimmung für die Zusammenfassung von Routen und dem End-to-End-Training auf VSN-Datensätzen. Die erweiterten Datensätze werden automatisch synthetisiert. Experimentelle Ergebnisse zeigen FLAMEs Überlegenheit gegenüber bestehenden Methoden; es übertreffen die Standesder Technik um 7,3 % in der Aufgabenerfüllungsrate im Touchdown-Datensatz. Diese Arbeit verdeutlicht das Potenzial multimodaler GSM (MGSM) in komplexen Navigationsaufgaben und stellt einen Fortschritt in Richtung auf Anwendungen von MGSM im Bereich der verkörperten Intelligenz dar.