HyperAIHyperAI

Command Palette

Search for a command to run...

Zu einem allgemeinen Modell für die körperliche Navigationlernen

Duo Zheng Shijia Huang Lin Zhao Yiwu Zhong Liwei Wang

Zusammenfassung

Das Erstellen eines allgemeinen Agenten, der mit der Welt interagieren kann, ist das faszinierende Ziel von KI-Systemen und treibt die Forschung zu verkörperten Navigationssystemen voran, bei denen ein Agente nach Anweisungen navigieren oder auf Abfragen reagieren muss. Trotz der erzielten bedeutenden Fortschritte konzentrieren sich bisherige Arbeiten hauptsächlich auf taskspezifische Agenten und fehlen in der Übertragbarkeit auf unbekannte Szenarien. Kürzlich haben große Sprachmodelle (LLMs) bemerkenswerte Fähigkeiten in verschiedenen Bereichen gezeigt und eine vielversprechende Möglichkeit für verkörperte Navigation geboten. Auf dieser Grundlage schlagen wir das erste allgemeine Modell für verkörperte Navigation vor: NaviLLM. Es passt LLMs an verkörperte Navigation an, indem es schemabasierte Anweisungen einführt. Die schemabasierten Anweisungen transformieren verschiedene Aufgaben flexibel in Generierungsprobleme, was eine Vielzahl von Aufgaben vereint. Dieser Ansatz ermöglicht es uns, verschiedene Datenquellen aus verschiedenen Datensätzen in das Training zu integrieren und NaviLLM mit den vielfältigen Fähigkeiten auszustatten, die für verkörperte Navigation erforderlich sind. Wir führen umfangreiche Experimente durch, um die Leistungsfähigkeit und Übertragbarkeit unseres Modells zu bewerten. Die experimentellen Ergebnisse zeigen, dass unser vereintes Modell den aktuellen Stand der Technik auf CVDN, SOON und ScanQA erreicht. Insbesondere übertrifft es die bisher besten Methoden um einen beträchtlichen Marginal von 29 % im Fortschritt des Ziels auf CVDN. Darüber hinaus demonstriert unser Modell auch starke Übertragbarkeit und erzielt beeindruckende Resultate bei unbekannten Aufgaben wie verkörperter Fragebeantwortung und 3D-Beschreibungsgenerierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp