vor 6 Monaten

Zusammenfassung

Vision and Language Navigation (VLN) ist eine anspruchsvolle, visuell verankerte Sprachversteh-Aufgabe. Gegeben eine natürlichsprachliche Navigationsanweisung interagiert ein visuelles Agent mit einer graphbasierten Umgebung, die Panoramabilder enthält, und versucht, die beschriebene Route zu folgen. Die meisten vorangegangenen Arbeiten konzentrierten sich auf Innenraum-Szenarien, wobei die besten Ergebnisse für Navigation entlang von Routen erzielt wurden, die den Trainingsrouten ähneln; dabei zeigt sich ein deutlicher Leistungsabfall, wenn auf unbekannten Umgebungen getestet wird. Wir fokussieren uns auf VLN in Außenbereichen und stellen fest, dass sich im Gegensatz zu Innenraum-VLN der größte Teil der Verbesserung bei unbekannten Daten auf Merkmale wie Junction-Typ-Embeddings oder Kopfrichtungs-Deltas stützt, die spezifisch für den jeweiligen Umgebungsgaphen sind, während visuelle Informationen eine sehr geringe Rolle bei der Generalisierung von VLN auf unbekannte Außenbereiche spielen. Diese Ergebnisse zeigen eine starke Neigung zu spezifischen Eigenschaften der Graph-Darstellungen städtischer Umgebungen und unterstreichen die Notwendigkeit, VLN-Aufgaben in Skalierung und Vielfalt geografischer Umgebungen weiter auszubauen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Natürliche Sprachverarbeitung

Geographische Information

Anwendungsgebiet

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Raphael Schumann Stefan Riezler

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Natürliche Sprachverarbeitung

Geographische Information

Anwendungsgebiet

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Raphael Schumann Stefan Riezler

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche | Paper | HyperAI

Command Palette

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche

Raphael Schumann Stefan Riezler

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche

Raphael Schumann Stefan Riezler

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Analyse der Generalisierung von Vision- und Sprachnavigation auf unbekannte Außenbereiche

Raphael Schumann Stefan Riezler

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters