Command Palette
Search for a command to run...
테스트 시각적-언어-행동 모델의 안티-탐색을 위한 안내: 테스트 시스케일링 접근법
테스트 시각적-언어-행동 모델의 안티-탐색을 위한 안내: 테스트 시스케일링 접근법
Siyuan Yang Yang Zhang Haoran He Ling Pan Xiu Li Chenjia Bai Xuelong Li
초록
비전-언어-액션(Vision-Language-Action, VLA) 모델은 흐름 매칭(flow-matching) 또는 확산(diffusion) 목적함수를 통해 대규모 다중 모달 데이터셋(예: 인간 원격 조작, 스크립트 기반 정책)으로부터 복잡한 행동을 효과적으로 학습할 수 있다. 그러나 VLA 모델은 사전 학습 단계에서 다양한 데이터 모드를 통합하기 때문에, 미세조정(finetuning) 데이터셋이 종종 운동학적으로 비효율적이거나 바람직하지 않은 방식으로 수집된 시연 데이터를 포함하고 있어, 하류 작업의 성공 행동 모드와 무관한 여분의 행동 모드가 존재하게 된다. 특히, 사전 학습된 VLA 모델에 대해 감독 미세조정을 수행한 후, 다양한 샘플링 노이즈에 대해 추론 시에 심각한 취약성이 관측된다. 본 논문에서는 이러한 불안정성을 VLA 정책과 하류 작업 데이터셋의 안정적인 성공 행동 모드에 의해 유도되는 정책 간 분포 차이(distribution shift)에 기인한다고 주장한다. 따라서 우리는 TACO(Test-Time Scaling with Action Chunk Verification)라는 새로운 테스트 시 스케일링(Test-Time Scaling, TTS) 프레임워크를 제안한다. TACO는 경량의 가상 카운트 추정기(pseudo-count estimator)를 활용하여 행동 조각(action chunks)의 신뢰도를 고정밀도로 검증한다. TACO를 통합한 VLA 모델은 샘플링된 모든 행동 조각 중에서 최대 가상 카운트를 가지는 행동을 실행함으로써, 추론 시 분포 차이를 방지하면서도 VLA의 일반화 능력을 유지할 수 있다. 이 제약은 오직 추론 시점에서만 적용되기 때문이다. 본 방법은 오프라인 강화학습(Offline Reinforcement Learning, RL)에서 전통적으로 사용되는 '과도 탐색 방지 원칙(anti-exploration principle)'과 유사하며, 기울기 기반 업데이트가 필요 없기 때문에, 특히 노이즈 제거 과정으로 인해 강화학습 업데이트가 어려운 흐름 매칭 또는 확산 기반 VLA 모델에 비해 큰 계산적 이점을 제공한다. 네 가지 시뮬레이션 벤치마크(RoboTwin2.0, Robotwin, LIBERO, SimplerEnv)와 이중 암 플랫폼을 대상으로 한 광범위한 실험을 통해, 제안한 방법이 하류 작업 적응 시 추론의 안정성과 성공률을 크게 향상시킴을 입증하였다.