Command Palette

Search for a command to run...

2달 전

에임바디드원비전: 일반 로봇 제어를 위한 병렬화된 시각-텍스트-행동 사전학습

에임바디드원비전: 일반 로봇 제어를 위한 병렬화된 시각-텍스트-행동 사전학습

초록

오픈 월드에서 다중 모달 추론과 물리적 상호작용을 원활하게 수행할 수 있는 인간의 능력은 일반 목적의 몸체화된 지능 시스템의 핵심 목표이다. 최근, 대규모 로봇 및 시각-텍스트 데이터를 기반으로 공동 학습된 비전-언어-액션(VLA) 모델들은 일반 로봇 제어 분야에서 두드러진 진전을 보여주었다. 그러나 여전히 복합적인 추론과 상호작용을 일체화하여 수행하는 인간 수준의 유연성을 달성하지 못하고 있다. 본 연구에서는 EO-Robotics를 제안하며, 이는 EO-1 모델과 EO-Data1.5M 데이터셋으로 구성된다. EO-1은 시각-텍스트-액션의 반복적 사전 학습을 통해 다중 모달 몸체화된 추론 및 로봇 제어에서 뛰어난 성능을 달성하는 통합된 몸체화된 기반 모델이다. EO-1의 개발은 두 가지 핵심 기반 위에 이루어졌다: (i) 이미지, 텍스트, 영상, 액션 등 다양한 모달 입력을 구분 없이 처리할 수 있는 통합 아키텍처, 그리고 (ii) 시각-텍스트-액션의 복합적 이해에 중점을 둔, 150만 개 이상의 샘플을 포함하는 대규모 고품질 다중 모달 몸체화된 추론 데이터셋인 EO-Data1.5M. EO-1은 EO-Data1.5M에서 자가 회귀적 디코딩과 흐름 매칭 노이즈 제거 기법 간의 상호작용을 통해 학습되며, 이로 인해 로봇 동작 생성과 다중 모달 몸체화된 추론이 원활하게 수행된다. 광범위한 실험을 통해 오픈 월드에서의 이해력과 일반화 능력 향상에 있어 시각-텍스트-액션의 반복적 학습의 효과가 입증되었으며, 다양한 다중 몸체 환경에서 장기적인 고도의 조작 작업을 통해 검증되었다. 본 논문은 EO-1의 아키텍처, EO-Data1.5M의 데이터 구축 전략, 그리고 학습 방법론을 상세히 설명하며, 고도의 몸체화된 기반 모델 개발에 있어 유용한 통찰을 제공한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
에임바디드원비전: 일반 로봇 제어를 위한 병렬화된 시각-텍스트-행동 사전학습 | 연구 논문 | HyperAI초신경