HyperAI초신경
한 달 전

LoHoVLA: 장기적인 체화된 작업을 위한 통합된 시각-언어-행동 모델

Yang, Yi ; Sun, Jiaxuan ; Kou, Siqi ; Wang, Yihan ; Deng, Zhijie
LoHoVLA: 장기적인 체화된 작업을 위한 통합된 시각-언어-행동 모델
초록

실세계의 체화된 에이전트들은 단일 행동을 넘어서 여러 단계의 해결책을 요구하는 고차원적인 목표를 가진 장기적 과제들을 직면하고 있습니다. 이러한 과제들을 성공적으로 수행하기 위해서는 고차원적인 과제 계획(예: 목표를 하위 과제로 분해)과 저차원적인 운동 제어(예: 정밀한 로봇 동작 생성)가 필요합니다. 기존의 시각 언어 행동(VLA) 모델과 계층적 아키텍처는 체화된 과제에서 잠재력을 보여주지만, 전자는 종종 계획에 실패하고, 후자는 조정 문제로 인해 성능이 저하될 수 있어, 이들 모두 성능 향상을 방해합니다. 우리는 이러한 한계를 극복하기 위해 장기적 과제에 대한 새로운 통합 VLA 프레임워크인 LoHoVLA를 소개합니다. LoHoVLA는 큰 사전 학습된 시각 언어 모델(VLM)을 주요 구성 요소로 활용하여, 각각 하위 과제 생성과 로봇 행동 예측을 위한 언어 및 행동 토큰을 공동으로 생성합니다. 이 공유 표현은 과제 간 일반화를 촉진합니다. 또한, LoHoVLA는 고차원적인 계획과 저차원적인 제어에서 발생하는 오류를 완화하기 위해 계층적 폐루프 제어 메커니즘을 채택합니다. LoHoVLA를 학습시키기 위해, 우리는 Ravens 시뮬레이터 기반으로 구축된 20개의 장기적 과제와 각각 1,000개의 전문가 데모(시각적 관찰, 언어 목표, 하위 과제, 로봇 행동으로 구성됨)를 포함하는 데이터셋인 LoHoSet을 도입했습니다. 실험 결과는 LoHoVLA가 Ravens 시뮬레이터에서 장기적 체화된 과제에 대해 계층적 접근법과 표준 VLA 접근법보다 크게 우수함을 보여줍니다. 이러한 연구 결과는 일반화 가능한 체화된 지능 발전을 위한 통합 아키텍처의 가능성을 강조합니다.