Command Palette

Search for a command to run...

13일 전

FLOWER: 효율적인 시각-언어-행동 흐름 정책을 통한 일반화 로봇 정책의 민주화

Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

FLOWER: 효율적인 시각-언어-행동 흐름 정책을 통한 일반화 로봇 정책의 민주화

초록

효율적인 시각-언어-행동(Vision-Language-Action, VLA) 정책 개발은 실용적 로봇 적용을 위해 핵심적인 과제이지만, 기존의 접근 방식은 막대한 계산 비용과 자원 소모를 겪고 있다. 기존의 확산 기반(VLA) 정책은 뛰어난 성능을 달성하기 위해 수십억 파라미터를 가진 모델과 거대한 데이터셋을 필요로 한다. 본 연구는 두 가지 기여를 통해 이 효율성 문제를 해결한다. 첫째, 중간 모달(fusion) 융합 기법을 도입하여, LLM의 최대 50% 레이어를 제거함으로써 확산 헤드에 더 많은 계산 자원을 할당한다. 둘째, 행동 특화(Global-AdaLN) 조건화 기법을 제안하여 모듈러한 적응 방식을 통해 파라미터 수를 20% 감소시킨다. 이러한 기술적 진보를 바탕으로, 본 연구는 새로운 9.5억 파라미터(VLA) 모델인 FLOWER를 제안한다. FLOWER는 단 200시간의 H100 GPU 사용만으로 사전학습이 가능하며, 10개의 시뮬레이션 및 실제 환경 벤치마크를 아우르는 총 190개의 작업에서 더 큰 VLA 모델들과 경쟁 가능한 성능을 보여주며, 다양한 로봇 구조에 걸쳐 뛰어난 견고성(로버스트함)을 입증한다. 또한, CALVIN ABC 벤치마크에서 4.53의 새로운 SoTA(Sota, State-of-the-Art) 성능을 달성하였다. 시연 영상, 코드, 사전학습된 가중치는 https://intuitive-robots.github.io/flower_vla/ 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
FLOWER: 효율적인 시각-언어-행동 흐름 정책을 통한 일반화 로봇 정책의 민주화 | 연구 논문 | HyperAI초신경