14일 전

지니 엔비전어: 로봇 조작을 위한 통합 월드 기반 플랫폼

Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren
지니 엔비전어: 로봇 조작을 위한 통합 월드 기반 플랫폼
초록

우리는 정책 학습, 평가, 시뮬레이션을 하나의 비디오 생성 프레임워크 내에 통합한 로봇 조작을 위한 통합 세계 기반 플랫폼인 Genie Envisioner(GE)를 소개한다. 핵심 기술인 GE-Base는 대규모 지시 조건 기반 비디오 확산 모델로서, 현실 세계의 로봇 상호작용에서 발생하는 공간적·시적·의미적 동역학을 구조화된 잠재 공간 내에 포착한다. 이 기반 모델을 바탕으로 GE-Act는 가벼운 흐름 매칭 디코더를 통해 잠재 표현을 실행 가능한 동작 경로로 매핑함으로써, 최소한의 감독 하에서도 다양한 구현체에 걸쳐 정밀하고 일반화 가능한 정책 추론을 가능하게 한다. 확장 가능한 평가 및 학습을 지원하기 위해, GE-Sim은 동작 조건 기반 신경 시뮬레이터로서, 폐루프 정책 개발을 위한 고해상도 시뮬레이션 결과를 생성한다. 플랫폼은 또한 시각적 사실성, 물리적 일관성, 지시-행동 일치도를 측정하는 표준화된 벤치마크 세트인 EWMBench를 갖추고 있다. 이러한 구성 요소들이 결합되어 Genie Envisioner는 지시 기반의 일반 목적의 몸체 지능을 위한 확장 가능하고 실용적인 기반 플랫폼으로 자리매김한다. 모든 코드, 모델, 벤치마크는 공개적으로 배포될 예정이다.

지니 엔비전어: 로봇 조작을 위한 통합 월드 기반 플랫폼 | 최신 연구 논문 | HyperAI초신경