HyperAI초신경
4일 전

시각-언어-행동 모델에 대한 조사: 행동 토큰화의 관점

Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang
시각-언어-행동 모델에 대한 조사: 행동 토큰화의 관점
초록

시각과 언어 기반 모델의 다중모드 이해, 추론, 및 생성 분야에서 이루어진 뛰어난 발전은 이러한 지능을 물리적 세계로 확장하려는 노력이 증가하게 하였으며, 이는 시각-언어-행동(Vision-Language-Action, VLA) 모델의 번영을 촉진하였습니다. 다양한 접근법에도 불구하고, 우리는 현재의 VLA 모델들이 단일 프레임워크 아래 통합될 수 있다는 점을 관찰하였습니다: 시각과 언어 입력은 일련의 VLA 모듈에 의해 처리되어, 점차 더 구체적이고 실행 가능한 정보를 인코딩하는 행동 토큰들의 연쇄를 생성하며, 최종적으로 실행 가능한 행동을 생성합니다. 또한 우리는 VLA 모델들을 구분하는 주요 설계 선택이 행동 토큰의 형식화 방식에 있음을 확인하였으며, 이를 언어 설명, 코드, 가능도(affordance), 궤적(trajectory), 목표 상태(goal state), 잠재 표현(latent representation), 원시 행동(raw action), 그리고 추론(reasoning)으로 분류할 수 있습니다. 그러나 아직까지 행동 토큰에 대한 포괄적인 이해가 부족하여 효과적인 VLA 개발을 크게 저해하고 있으며, 미래 방향성을 혼란스럽게 하고 있습니다. 따라서 본 조사에서는 행동 토큰화의 관점에서 기존 VLA 연구를 범주화하고 해석하며, 각 토큰 유형의 강점과 한계를 정리하고 개선해야 할 영역을 파악하기를 목표로 합니다. 이 체계적인 검토와 분석을 통해 우리는 VLA 모델의 전반적인 진화에 대한 종합적인 전망을 제시하며, 아직 탐구되지 않았지만 유망한 방향성을 강조하고 미래 연구에 대한 가이드라인을 제공함으로써 일반 목적 지능에 한 발짝 더 다가가는 데 기여하기를 바랍니다.