초록

행동 공간의 선택은 능력 있는 엔드투엔드 학습 가능한 에이전트를 개발하는 데 있어 핵심적이지만 해결되지 않은 과제이다. 본 논문에서는 오픈 엔드드 마인크래프트 환경에서 시각-언어-행동(Vision-Language-Action, VLA) 모델 또는 계층적 에이전트 모델에 적용 가능한 주요 추상화된 행동 공간과 토크나이저들에 대한 대규모이고 체계적인 비교를 처음으로 제시한다. 분석 결과, 어떤 특정 행동 공간이 항상 최적이라는 결론은 도출되지 않았으며, 오히려 가장 효과적인 추상화는 과제에 따라 크게 달라지며, 이는 일반화된 에이전트를 구축하는 데 있어 딜레마를 초래한다. 이를 해결하기 위해 우리는 단일한 몰입형 VLA 모델 내에서 고수준 계획과 저수준 제어를 통합하는 새로운 프레임워크인 행동의 사슬(Chain of Action, CoA)을 제안한다. CoA는 추상화된 행동을 별도의 정책에 대한 명령으로 보지 않고, 최종 실행 가능한 행동을 생성하는 과정을 안내하는 중간 추론 단계로 간주한다. 이는 사고의 사슬(chain of thought)과 유사한 개념이다. 또한, CoA 프레임워크를 활용해 다양한 행동 공간의 혼합 데이터셋으로 훈련된 ‘모든 것을 통합한’ 에이전트가 더 강건하고 일반화 능력이 뛰어난 정책을 학습함을 실험적으로 입증하였다. 이러한 통합형 에이전트는 기존의 강력한 전문화된 기준 모델들을 상회하는 새로운 최고 성능을 달성하며, 전반적인 작업 성공률을 향상시켰다. 재현 가능한 연구를 촉진하기 위해, 800개 이상의 다양한 작업을 포함하는 포괄적인 벤치마크, 철저히 선별된 데이터셋, 소스 코드, 그리고 모든 사전 훈련된 모델 체크포인트를 제공하는 OpenHA(Open Hierarchical Agents) 패키지를 공개한다. 자세한 내용은 다음 URL에서 확인할 수 있다: [https://...]

소스 PDF 코드 보기