HyperAIHyperAI

Command Palette

Search for a command to run...

SOON: Szenarioorientierte Objektnavigation mit graphbasiertem Exploration

Fengda Zhu Xiwen Liang Yi Zhu Xiaojun Chang Xiaodan Liang

Zusammenfassung

Die Fähigkeit, wie ein Mensch in einer 3D-embodierten Umgebung von beliebiger Ausgangsposition aus zu einem sprachgesteuerten Ziel zu navigieren, gilt als eines der „heiligen Gräle“ intelligenten Roboters. Die meisten gängigen Benchmark-Datenbanken für visuelle Navigation konzentrieren sich jedoch auf die Navigation von einem festen Startpunkt aus, wobei detaillierte, schrittweise Anweisungen vorgegeben werden. Dieser Ansatz weicht von realen Anwendungsszenarien ab, in denen Menschen lediglich beschreiben, wie das Zielobjekt und seine Umgebung aussehen, und den Roboter auffordern, die Navigation von jeder beliebigen Position aus zu beginnen. In diesem Artikel führen wir daher eine neue Aufgabenstellung namens „Scenario Oriented Object Navigation (SOON)“ ein. Bei dieser Aufgabe muss ein Agent von einer beliebigen Position in einer 3D-embodierten Umgebung aus navigieren, um ein Zielobjekt mithilfe einer Szenenbeschreibung zu lokalisieren. Um eine vielversprechende Lösungsrichtung für diese Aufgabe zu bieten, schlagen wir eine neuartige graphenbasierte Exploration (Graph-Based Exploration, GBE) vor, die den Navigationzustand als Graph modelliert und einen innovativen graphenbasierten Ansatz zur Wissensgewinnung einsetzt, wobei durch die Lernung suboptimaler Trajektorien die Stabilität des Trainings verbessert wird. Zudem präsentieren wir eine neue, großskalige Benchmark-Datenbank namens „From Anywhere to Object (FAO)“. Um Zielambiguitäten zu vermeiden, enthält die Beschreibung im FAO-Datensatz umfassende semantische Szeneninformationen, darunter Objektattribute, Objektbeziehungen, Regionenbeschreibungen sowie Beschreibungen benachbarter Bereiche. Unsere Experimente zeigen, dass die vorgeschlagene GBE-Methode sowohl auf dem FAO- als auch auf dem R2R-Datensatz verschiedene State-of-the-Art-Verfahren übertrifft. Zudem bestätigen Ablationsstudien auf dem FAO-Datensatz die hohe Qualität der Datenbank.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp