Command Palette
Search for a command to run...
Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

초록
시각-언어-행동(Vision-Language-Action, VLA) 모델은 대규모 시각-언어 백본을 활용하여 이미지와 지시사항을 로봇 행동으로 매핑한다. 그러나 기존의 VLA 디코더는 행동을 고정된 좌에서 우로의 순서로 자동 회귀적으로 생성하거나, 백본 외부에 연속적인 확산(continuous diffusion) 또는 플로우 매칭(flow matching) 헤드를 부착하는 방식을 채택한다. 이러한 접근은 전용 학습과 반복적인 샘플링을 요구하며, 통합적이고 확장 가능한 아키텍처의 구현을 저해한다. 본 연구에서는 단일 트랜스포머 정책인 '이산 확산 VLA(Discrete Diffusion VLA)'를 제안한다. 이 모델은 이산 확산 기법을 활용해 이산화된 행동 청크를 모델링하며, VLM 백본과 동일한 교차 엔트로피 목적함수를 통해 학습된다. 이 설계는 확산 기법의 점진적 정교화 파라다임을 유지하면서도, VLM의 이산 토큰 인터페이스와 자연스럽게 호환된다. 제안된 방법은 쉽게 예측 가능한 행동 요소부터 먼저 처리하는 적응형 디코딩 순서를 제공하며, 정교화 라운드 간에 불확실한 예측을 재확인하기 위한 보조 마스킹(secondary remasking)을 활용함으로써 일관성 향상과 강력한 오류 수정 능력을 달성한다. 이 통합된 디코더는 사전 학습된 시각-언어 사전 지식을 유지하고, 병렬 디코딩을 지원하며, 자동 회귀적 한계를 극복하고 함수 평가 횟수를 줄인다. 실험 결과, LIBERO에서 평균 성공률(SR) 96.3%, SimplerEnv Fractal에서 시각 매칭 성능 71.2%, SimplerEnv Bridge에서 전반적인 성능 49.3%를 달성하며, 자동 회귀 및 연속 확산 기반 기준 모델보다 우수한 성능을 보였다. 이러한 결과는 이산 확산 기반 행동 디코더가 정밀한 행동 모델링과 일관된 학습을 가능하게 하며, VLA 모델을 더 큰 모델과 데이터셋으로 확장하는 기반을 마련함을 시사한다.