
초록
대형 언어 모델(LLM)은 시각-언어 탐색(VLN) 작업에서 잠재력을 보여주었지만, 현재의 응용 프로그램들은 여전히 도전과제에 직면해 있습니다. LLM은 일반적인 대화 상황에서는 뛰어나지만, 전문적인 탐색 작업에서는 성능이 부족하여 전문 VLN 모델보다 열등한 결과를 나타냅니다. 우리는 FLAME(FLAMingo-Architected Embodied Agent)라는 새로운 다중 모달 LLM 기반 에이전트와 아키텍처를 소개합니다. 이는 도시 VLN 작업을 효율적으로 처리하도록 설계되었습니다. 우리의 접근 방식은 거리 뷰 설명을 위한 단일 인식 조정, 경로 요약을 위한 다중 인식 조정, 그리고 VLN 데이터셋에서의 엔드투엔드 학습을 포함하는 세 가지 단계의 조정 기술을 구현하여 탐색 작업에 효과적으로 적응할 수 있도록 합니다. 강화된 데이터셋은 자동으로 합성됩니다. 실험 결과는 FLAME이 기존 방법들보다 우수함을 입증하며, Touchdown 데이터셋에서의 작업 완료율이 최신 방법들보다 7.3% 증가했습니다. 본 연구는 복잡한 탐색 작업에서 다중 모달 LLM(MLLM)의 잠재력을 보여주며, 현존하는 MLLM 응용 분야인 체화 지능 분야에서의 발전을 대표합니다.