다양성만으로 대규모 로봇 조작이 가능할까요?

데이터 스케일링은 자연어 처리(NLP)와 컴퓨터 비전(CV)의 기초 모델에서 놀라운 성공을 이끌었지만, 로봇 조작에서 효과적인 데이터 스케일링의 원리는 아직 충분히 이해되지 않았다. 본 연구에서는 다양한 로봇 플랫폼에서 수행된 광범위한 실험을 통해, 작업(task), 구현체(embodiment), 전문가(expert)라는 세 가지 중요한 차원을 분석하여 "더 다양하면 더 좋다"는 기존의 직관에 도전한다. 실험 결과를 통해 다음과 같은 사실을 밝혔다: (1) 작업 다양성은 작업별 시연 수보다 더 중요하며, 다양한 사전 학습 작업으로부터 새로운 하류 시나리오로의 전이를 촉진한다; (2) 다중 구현체 사전 학습 데이터는 구현체 간 전이에 선택적이다—고품질 단일 구현체 데이터로 학습된 모델은 다른 플랫폼으로 효율적으로 전이되며, 다중 구현체 사전 학습 모델보다 미세 조정(fine-tuning) 중 더 바람직한 스케일링 특성을 보인다; (3) 개인별 운영 선호도와 인간 시연의 확률적 변동으로 인해 발생하는 전문가 다양성은 정책 학습에 혼란을 줄 수 있으며, 속도 다중모드(velocity multimodality)가 주요 기여 요인으로 나타났다. 이러한 통찰력을 바탕으로, 우리는 속도 애매함(velocity ambiguity)을 완화하기 위한 분포 편향 제거 방법을 제안한다. 제안된 방법을 적용한 GO-1-Pro는 15%의 성능 향상을 이룩하였으며, 이는 사전 학습 데이터를 2.5배 사용한 것과 동등한 효과를 나타냈다. 총체적으로 본 연구의 결과들은 로봇 조작 데이터셋을 효과적으로 스케일링하는 방법에 대한 새로운 관점을 제공하고 실용적인 지침을 제시한다.