Zu einem allgemeinen Modell für die körperliche Navigationlernen

Das Erstellen eines allgemeinen Agenten, der mit der Welt interagieren kann, ist das faszinierende Ziel von KI-Systemen und treibt die Forschung zu verkörperten Navigationssystemen voran, bei denen ein Agente nach Anweisungen navigieren oder auf Abfragen reagieren muss. Trotz der erzielten bedeutenden Fortschritte konzentrieren sich bisherige Arbeiten hauptsächlich auf taskspezifische Agenten und fehlen in der Übertragbarkeit auf unbekannte Szenarien. Kürzlich haben große Sprachmodelle (LLMs) bemerkenswerte Fähigkeiten in verschiedenen Bereichen gezeigt und eine vielversprechende Möglichkeit für verkörperte Navigation geboten. Auf dieser Grundlage schlagen wir das erste allgemeine Modell für verkörperte Navigation vor: NaviLLM. Es passt LLMs an verkörperte Navigation an, indem es schemabasierte Anweisungen einführt. Die schemabasierten Anweisungen transformieren verschiedene Aufgaben flexibel in Generierungsprobleme, was eine Vielzahl von Aufgaben vereint. Dieser Ansatz ermöglicht es uns, verschiedene Datenquellen aus verschiedenen Datensätzen in das Training zu integrieren und NaviLLM mit den vielfältigen Fähigkeiten auszustatten, die für verkörperte Navigation erforderlich sind. Wir führen umfangreiche Experimente durch, um die Leistungsfähigkeit und Übertragbarkeit unseres Modells zu bewerten. Die experimentellen Ergebnisse zeigen, dass unser vereintes Modell den aktuellen Stand der Technik auf CVDN, SOON und ScanQA erreicht. Insbesondere übertrifft es die bisher besten Methoden um einen beträchtlichen Marginal von 29 % im Fortschritt des Ziels auf CVDN. Darüber hinaus demonstriert unser Modell auch starke Übertragbarkeit und erzielt beeindruckende Resultate bei unbekannten Aufgaben wie verkörperter Fragebeantwortung und 3D-Beschreibungsgenerierung.