Vision Language Navigation
Vision-Language Navigation (VLN) ist eine Aufgabe, die es verkörperten Agenten ermöglicht, natürliche Sprachanweisungen in realen 3D-Umgebungen auszuführen. Das Ziel dieser Aufgabe besteht darin, das Verständnis und die autonome Navigation von Agenten in komplexen Umgebungen durch die Integration visueller und linguistischer Informationen zu verbessern, was erheblichen Anwendungswert in Bereichen wie intelligente Robotik und virtuelle Assistenten bietet.