2달 전

체화된 탐색을 위한 일반 모델 학습 방향성

Zheng, Duo ; Huang, Shijia ; Zhao, Lin ; Zhong, Yiwu ; Wang, Liwei
체화된 탐색을 위한 일반 모델 학습 방향성
초록

세계와 상호작용할 수 있는 전문가 아닌 에이전트를 구축하는 것은 인공지능 시스템의 흥미로운 목표이며, 이는 물리적 탐색(embodied navigation) 연구를 촉진시키고 있습니다. 여기서 에이전트는 지시에 따라 이동하거나 질의에 응답해야 합니다. 그러나 주요한 진전을 이루었음에도 불구하고, 이전 연구들은 주로 특정 작업에 특화된 에이전트에 초점을 맞추어 새로운 시나리오에서의 일반화 능력이 부족했습니다. 최근, 대형 언어 모델(LLMs)은 다양한 분야에서 뛰어난 능력을 보여주며, 물리적 탐색에 대한 유망한 기회를 제공하고 있습니다. 이를 바탕으로 우리는 물리적 탐색을 위한 첫 번째 전문가 아닌 모델인 NaviLLM을 제안합니다. NaviLLM은 스키마 기반 지시를 도입하여 LLMs를 물리적 탐색에 적응시키며, 스키마 기반 지시는 다양한 작업을 생성 문제로 유연하게 변환하여 폭넓은 범위의 작업을 통합합니다. 이러한 접근 방식은 다양한 데이터셋에서 다양한 데이터 소스를 학습 과정에 통합할 수 있게 하여, NaviLLM이 물리적 탐색에 필요한 광범위한 능력을 갖출 수 있도록 합니다. 우리는 우리의 모델 성능과 일반화 능력을 평가하기 위해 광범위한 실험을 수행하였습니다. 실험 결과, 우리의 통합 모델은 CVDN, SOON, 그리고 ScanQA에서 최신 기술 수준의 성능을 달성하였으며, 특히 CVDN에서 목표 진행률 측면에서 이전 최신 기술보다 29%라는 큰 차이로 우수한 성능을 보였습니다. 또한 우리의 모델은 새로운 작업에서도 강력한 일반화 능력을 보여주며, 물리적 질문 응답 및 3D 캡셔닝 등에서 인상적인 결과를 제시하였습니다.

체화된 탐색을 위한 일반 모델 학습 방향성 | 최신 연구 논문 | HyperAI초신경