17일 전

GR-MG: 다중 모달 목표 조건 정책을 통한 부분적으로 주석이 달린 데이터 활용

Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong
GR-MG: 다중 모달 목표 조건 정책을 통한 부분적으로 주석이 달린 데이터 활용
초록

로봇 공학 커뮤니티는 유연한 자연어 지시문을 기반으로 일반화 가능한 로봇 조작을 달성하는 데 지속적인 관심을 기울여 왔다. 주요 과제 중 하나는 동작과 텍스트 모두가 완전히 레이블링된 로봇 경로 데이터를 확보하는 데 시간과 노동이 많이 소요된다는 점이다. 그러나 동작 레이블이 없는 인간 활동 영상이나 텍스트 레이블이 없는 로봇 경로 데이터와 같은 부분적으로 레이블링된 데이터는 훨씬 쉽게 수집할 수 있다. 이러한 데이터를 활용하여 로봇의 일반화 능력을 향상시킬 수 있을까? 본 논문에서는 텍스트 지시문과 목표 이미지에 조건을 부여할 수 있는 새로운 방법인 GR-MG를 제안한다. 학습 과정에서는 GR-MG가 경로에서 목표 이미지를 샘플링하고, 텍스트와 목표 이미지 양쪽 또는 텍스트가 없을 경우 목표 이미지만에 조건을 부여한다. 추론 과정에서는 텍스트만 제공되는 환경에서 GR-MG는 확산 기반 이미지 편집 모델을 통해 목표 이미지를 생성하고, 생성된 이미지와 텍스트 양쪽에 조건을 부여한다. 이 방법은 부분적으로 레이블링된 대량의 데이터를 활용하면서도 언어를 통해 작업을 유연하게 지정할 수 있도록 한다. 정확한 목표 이미지를 생성하기 위해, 작업 진행 상황 정보를 생성 과정에 주입하는 새로운 프로그레스 가이드(goal image generation) 모델을 제안한다. 시뮬레이션 실험에서 GR-MG는 연속 5개 작업을 수행하는 평균 성공 수를 3.35에서 4.04로 향상시켰다. 실제 로봇 실험에서는 58개의 다양한 작업을 수행할 수 있었으며, 단순한 설정과 일반화 설정에서 각각 성공률을 68.7%에서 78.1%, 44.4%에서 60.6%로 개선했다. 또한, 새로운 기술을 소량의 샘플로 학습하는 경우에도 비교 기준 모델들보다 우수한 성능을 보였다. 동영상 데모, 코드 및 체크포인트는 프로젝트 페이지에서 확인할 수 있다: https://gr-mg.github.io/.

GR-MG: 다중 모달 목표 조건 정책을 통한 부분적으로 주석이 달린 데이터 활용 | 최신 연구 논문 | HyperAI초신경