Command Palette

Search for a command to run...

한 달 전

정책을 구성하세요! 테스트 시 분포 수준의 조합을 통한 확산기반 또는 흐름기반 로봇 정책 개선

정책을 구성하세요! 테스트 시 분포 수준의 조합을 통한 확산기반 또는 흐름기반 로봇 정책 개선

초록

로봇 제어를 위한 확산 기반 모델, 특히 시각-언어-행동(VLA) 및 시각-행동(VA) 정책은 뛰어난 성능을 보여주고 있다. 그러나 대규모 상호작용 데이터셋을 확보하는 데 드는 높은 비용으로 인해 이러한 모델의 발전이 제한되고 있다. 본 연구는 추가적인 모델 학습 없이 정책 성능을 향상시킬 수 있는 대안적 접근법을 제안한다. 놀랍게도, 우리는 조합된 정책이 각 부모 정책 중 어느 하나보다도 뛰어난 성능을 달성할 수 있음을 실험적으로 입증한다. 본 연구의 기여는 세 가지로 나뉜다. 첫째, 다수의 확산 모델에서 도출된 분포 점수의 볼록 조합(convex composition)이 개별 점수보다 우수한 1단계 기능 목표를 생성할 수 있음을 이론적으로 입증한다. 이후 그르온발-유사 경계(Gronwall-type bound)를 활용하여, 이 1단계 개선이 전체 생성 경로에 걸쳐 전파됨을 보이며, 시스템 수준의 성능 향상을 가능하게 함을 설명한다. 둘째, 이러한 이론적 결과를 바탕으로, 훈련 없이도 성능을 향상시킬 수 있는 '일반 정책 조합(Genral Policy Composition, GPC)'을 제안한다. GPC는 사전 학습된 여러 정책의 분포 점수를 볼록 조합하고, 테스트 시 검색을 통해 성능을 개선하는 방법으로, 다양한 유형의 정책을 즉시 연결하여 사용할 수 있다. 이는 VA 및 VLA 모델뿐만 아니라 확산 기반 또는 플로우 매칭 기반의 정책을 포함하며, 입력 시각 모달리티의 차이에 관계없이 적용 가능하다. 셋째, 광범위한 실험적 검증을 제공한다. Robomimic, PushT, RoboTwin 벤치마크에서의 실험과 실제 로봇 환경에서의 평가를 통해, GPC가 다양한 작업에 걸쳐 일관되게 성능과 적응력을 향상시킴을 확인한다. 또한, 대안적 조합 연산자와 가중치 전략에 대한 추가 분석을 통해 GPC의 성공 메커니즘에 대한 통찰을 제공한다. 이러한 결과는 기존 정책을 활용하여 제어 성능을 향상시키는 간단하면서도 효과적인 방법으로 GPC를 정립한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
정책을 구성하세요! 테스트 시 분포 수준의 조합을 통한 확산기반 또는 흐름기반 로봇 정책 개선 | 연구 논문 | HyperAI초신경