Command Palette
Search for a command to run...
배치 중 학습(Learning While Deploying, LWD)은 2026년 상하이 혁신 연구소, AIZ 로봇공학, 컬럼비아 대학교 연구진에 의해 제안되었으며, 관련 연구 결과는 논문으로 발표되었습니다. 배포 중 학습: 범용 로봇 정책을 위한 대규모 강화 학습 .
LWD는 대규모 플릿 배포와 오프라인-온라인 강화 학습을 결합한 확장 가능한 프레임워크입니다. 이 프레임워크는 오프라인 사전 학습 데이터에만 의존하여 복잡한 실제 환경에서 작업을 수행하는 일반적인 비전-언어-행동(VLA) 모델이 겪는 "분포 변화 및 롱테일 실패" 문제를 주로 해결합니다. LWD는 분산 암묵적 가치 학습(DIVL)과 QAM(Adjoint Matching) 기반 Q-러닝을 도입하여 실제 환경에서 자율 로봇 상호작용 및 인간 개입으로부터 데이터를 지속적으로 수집함으로써 실제 적용 시나리오에서 벗어나지 않고 정책 모델을 안정적으로 반복 학습할 수 있도록 합니다. 연구 결과는 LWD가 보상 부족으로 인한 학습 병목 현상을 효과적으로 극복하여 다양한 실제 물리적 환경에서 범용 모델의 적응성과 일반화 능력을 크게 향상시킨다는 것을 보여줍니다. 슈퍼마켓 상품 진열, 차 우리는 과정, 칵테일 제조 등 8가지 복잡한 실제 시나리오에서 단일 범용 정책 모델은 평균 951 TP3T의 작업 성공률을 달성했으며 장기 작업의 실행 시간을 크게 단축했습니다.