Command Palette
Search for a command to run...
평균 속도 전략(MVP)
평균 속도 정책(MVP)은 칭화대학교(차량교통학과 및 인공지능학과), 캘리포니아대학교 버클리 캠퍼스의 바이두 인공지능 연구소(BAIR), 그리고 홍콩대학교 연구팀이 공동으로 제안했습니다. 관련 연구 결과는 "단일 단계 동작 생성을 위한 순간 속도 제약 조건을 포함하는 평균 흐름 정책"는 ICLR 2026에 채택되었습니다.
MVP는 강화 학습을 위한 새로운 생성 정책으로, "평균 속도장"을 모델링하여 가장 빠른 단일 단계 액션 생성을 달성하고, 다단계 샘플링의 계산 오버헤드를 완전히 제거합니다. 모델에 명시적인 경계 조건이 부족하다는 문제를 해결하기 위해 연구팀은 "순간 속도 제약 조건(IVC)"을 도입하여 학습 정확도와 정책 표현력을 효과적으로 향상시켰습니다. 실제 성능에서 MVP는 학습 및 추론 속도를 크게 향상시키고(평균 단일 단계 추론 시간은 단 10.93밀리초), Robomimic 및 OGBench의 복잡한 로봇 조작 작업에서 0.88의 최첨단 평균 성공률을 달성하여 해당 분야의 최고 수준에 도달했습니다.