비전-언어 네비게이션

Vision-Language Navigation (VLN)은 실제 3D 환경에서 자연어 지시를 수행할 수 있도록 체화된 에이전트를 가능하게 하는 작업입니다. 이 작업의 목표는 시각적 정보와 언어적 정보를 통합하여 복잡한 환경을 이해하고 자율적으로 탐색하는 에이전트를 실현하는 것입니다. 이는 지능형 로봇과 가상 비서 등 다양한 분야에서 중요한 응용 가치를 가지고 있습니다.

Room2Room

R2R+EnvDrop