HyperAI초신경

유니버설 로봇의 중요한 이정표! MIT는 이기종 데이터 소스 문제를 해결하고 멀티태스킹 로봇의 유연한 실행을 가능하게 하는 전략 조합 프레임워크 PoCo를 제안합니다.

特色图像

18개의 인간형 로봇이 "인사하는 사람" 역할을 하며 손님들에게 한목소리로 손을 흔들었습니다. 이는 2024년 세계인공지능대회에서 충격적인 장면으로, 올해 로봇의 급속한 발전을 사람들이 직감적으로 느낄 수 있게 했다.

GIF 커버
이미지 출처: Jiazi Light Year

1954년, 세계 최초의 프로그래밍 가능 로봇 "유니메이트"가 제너럴 모터스 조립 라인에서 공식적으로 가동되었습니다. 반세기가 넘는 세월 동안 로봇은 점차 거대한 산업적 거인에서 더욱 똑똑하고 유연한 인간 조수로 성장했습니다. 그 중에서도 인공지능 기술, 특히 자연어 처리와 컴퓨터 비전 분야의 획기적인 발전은 막대한 컴퓨팅 파워와 방대한 데이터를 활용해 로봇 개발을 위한 고속 궤도를 마련했습니다.행동 복제와 같은 간단한 알고리즘을 통해 일반 로봇 전략 훈련미래 로봇의 무한한 잠재력이 점차 드러나고 있습니다.

유니메이트 로봇 출처: 바이두 백과사전

하지만 현재 대부분의 로봇 학습 파이프라인은 특정 작업에 맞춰 훈련됩니다.이로 인해 새로운 상황에 대처하거나 다른 작업을 수행할 수 없게 됩니다.또한, 로봇 훈련 데이터는 주로 시뮬레이션, 인간 시연, 로봇 원격 조작 시나리오에서 나옵니다.다양한 데이터 소스 간에는 엄청난 이질성이 존재합니다.머신 러닝 모델이 그렇게 많은 소스에서 얻은 데이터를 통합하는 것도 어렵고, 로봇에게 일반적인 전략을 훈련시키는 것은 항상 큰 과제였습니다.

이에 대하여,MIT 연구진은 로봇 정책 구성 프레임워크인 PoCo(Policy Composition)를 제안했습니다.이 프레임워크는 확산 모델의 확률적 합성을 사용하여 다양한 분야와 양식의 데이터를 결합하고, 작업 수준, 행동 수준, 분야 수준 전략 합성 방법을 개발하여 복잡한 로봇 전략 조합을 구축합니다. 로봇 도구 사용 작업에서 발생하는 데이터 이질성 및 작업 다양성 문제를 해결할 수 있습니다. 관련 연구는 "PoCo: 이기종 로봇 학습을 위한 정책 구성"이라는 제목으로 arXiv에 게재되었습니다.

연구 하이라이트:
* 재교육이 필요 없으며 PoCo 프레임워크는 다양한 필드의 데이터 교육 전략을 유연하게 결합할 수 있습니다.

* PoCo는 시뮬레이션과 실제 세계 모두에서 도구 사용 작업에 탁월하며 단일 도메인에서 훈련된 방법에 비해 다양한 환경의 작업에 높은 일반화를 보여줍니다.

서류 주소:
https://arxiv.org/abs/2402.02511

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s

인간 및 기계 데이터, 실제 및 시뮬레이션 데이터 등을 포함하는 3가지 주요 데이터 세트입니다.

이 연구에 사용된 데이터 세트는 주로 인간 시연 비디오 데이터, 실제 로봇 데이터, 시뮬레이션 데이터에서 나왔습니다.

인간 시연 비디오 데이터 세트

최대 200개의 트랙을 수집할 수 있는 야생의 교정되지 않은 카메라를 통해 인간의 시범 비디오를 수집할 수 있습니다.

데이터 세트 처리 파이프라인, 보정되지 않은 RGB-D 카메라로 야외에서 수집한 인체 시연 비디오를 레이블이 지정된 트랙으로 변환할 수 있습니다.

실제 로봇 데이터 세트

현장의 로컬 및 글로벌 뷰는 설치된 손목 카메라와 오버헤드 카메라를 통해 얻어지고, 도구 자세, 도구 모양, 도구가 물체에 닿을 때의 촉각 정보는 GelSight Svelte Hand를 사용하여 수집됩니다. 각 작업마다 50~100개의 궤적 데모가 수집됩니다.

시뮬레이션 데이터 세트

시뮬레이션된 데이터 세트는 Fleet-Tools를 따르며, 여기서는 주요 포인트 궤적 최적화를 통해 전문가 데모가 생성되고 총 약 50,000개의 시뮬레이션 데이터 포인트가 수집됩니다. 이후의 훈련 과정에서 연구진은 포인트 클라우드 데이터와 모션 데이터 모두에 대한 데이터 증강을 수행했으며, 테스트를 위해 고정된 시뮬레이션 장면을 저장했습니다.

또한 연구진은 모델의 견고성을 개선하기 위해 깊이 이미지와 마스크에서 512개 도구와 512개 객체 포인트 클라우드에 점별 노이즈와 무작위 드롭을 추가했습니다.

확률 분포 곱을 통한 전략 결합

전략 조합에서 연구자들은 두 확률 분포 pDM(⋅|c,T)와 pD′M′(⋅|c′,T′)에 의해 인코딩된 궤적 정보를 제공했고 추론 중에 곱 분포에서 샘플링을 통해 이 두 확률 분포의 정보를 직접 결합했습니다.

안에,제품  두 확률 분포를 모두 만족하는 모든 궤적에서 높은 가능성을 보여줍니다.이는 두 분포의 정보를 효과적으로 인코딩할 수 있습니다.

전략 포트폴리오 PoCo

연구자들이 제안한 PoCo는행동, 작업, 채널 및 도메인에 걸쳐 정보를 모아서재교육이 필요하지 않습니다. 예측 과정에서 정보는 모듈 방식으로 결합되며, 여러 분야의 정보를 활용하여 도구 사용 작업의 일반화를 달성할 수 있습니다.

전략 포트폴리오 다이어그램

각 모델의 확산 출력은 동일한 공간에 있다고 가정합니다. 즉, 작용 차원과 작용 시간 영역이 동일하다고 가정합니다. 테스트 시점에서 PoCo는 그래디언트 예측과 결합됩니다. 이러한 접근 방식은 이미지, 포인트 클라우드, 촉각 이미지 등 다양한 모달리티를 사용하여 학습된 정책을 결합하는 것처럼 다양한 도메인의 정책을 조합하는 데 적용될 수 있습니다. 또한, 다양한 작업에 대한 전략을 결합하는 데 사용할 수 있으며, 행동 조합을 통해 원하는 행동에 대한 추가 비용 함수를 제공하는 데에도 사용할 수 있습니다.

이와 관련하여 연구자들은 PoCo가 정책 성과를 개선할 수 있는 방법을 보여주기 위해 작업 수준 구성, 행동 수준 구성, 도메인 수준 구성의 세 가지 예를 제시했습니다.

작업 수준 구성

작업 수준의 조합은 잠재적으로 작업 T를 완료할 수 있는 궤적에 추가 가중치를 더해 각 작업에 대한 별도의 교육이 필요 없이 합성된 궤적의 최종 품질을 개선할 수 있습니다.대신, 다중 작업 목표를 달성할 수 있는 일반 정책이 훈련됩니다.

행동 수준 구성

이러한 조합은 작업 분배와 비용 목표에 대한 정보를 결합할 수 있습니다.합성된 궤적이 작업을 완료하고 지정된 비용 목표를 최적화하는지 확인합니다.

도메인 수준 구성

이러한 조합을 통해 다양한 센서 모달리티와 도메인에서 수집한 정보를 활용할 수 있습니다.여러 분야에서 수집된 데이터를 보완하는 데 매우 유용합니다.예를 들어, 실제 로봇 데이터를 수집하는 데 비용이 많이 들지만 정확도가 더 높고, 시뮬레이션 데모 데이터를 수집하는 데 비용은 저렴하지만 정확도는 떨어지는 경우, 동일한 필드에서 서로 다른 모드의 데이터에 대해 기능 연결을 수행하여 처리를 간소화할 수 있습니다.

시각화 도구 사용 과제, 3가지 주요 전략 조합 평가

시각화 도구 사용 작업

훈련 중에 연구자들은 잡음 제거 확산 확률 모델(DDPM)을 갖춘 시간적 U-Net 구조를 사용하여 100단계의 훈련을 수행했습니다. 테스트하는 동안 그들은 잡음 제거 확산 암묵적 모델(DDIM)을 사용하여 32단계의 테스트를 수행했습니다. 연구자들은 다양한 도메인 D와 작업 T 간의 다양한 확산 모델을 결합하기 위해 모든 모델에 동일한 행동 공간을 사용했고 로봇의 행동 경계에 고정된 정규화를 수행했습니다.

연구자들은 일반적인 도구(렌치, 망치, 삽, 스패너)에 대한 로봇 사용 작업을 통해 제안된 PoCo를 평가했습니다. 작업은 특정 임계값에 도달했을 때 성공한 것으로 결정되었습니다. 예를 들어, 망치질 작업은 핀이 박혔을 때 성공한 것으로 간주되었습니다.

행동 수준의 조합은 원하는 행동 목표를 개선할 수 있습니다.

연구자들은 합성 가중치를 γc=0.1로 고정하고 부드러움과 작업 공간 제약과 같은 동작을 결합하기 위해 테스트 시간 추론을 사용했습니다.

행동의 조합 효과. 비용을 확률적으로 결합함으로써 각 비용 목표에 대한 지표를 최적화할 수 있습니다.

위 표에서 볼 수 있듯이, 테스트 시간의 행동 수준 조합을 통해 원활함, 작업 공간 제약 등의 원하는 행동 목표를 개선할 수 있습니다.

다중 작업 정책 평가에서는 작업 수준 조합이 최적입니다.

작업 가중치 α=0일 때, 작업 수준 조합 정책은 무조건적 멀티태스크 정책에 매핑되고, α=1일 때, 표준 작업 조건 정책에 매핑되며, 0 < α < 1일 때, 연구자들은 작업 조건 정책과 작업 무조건 정책 사이를 보간합니다. α > 1인 경우, 작업 조건과 더욱 관련성이 높은 궤적을 얻을 수 있습니다.

시뮬레이션된 다중 작업 정책 평가에서 작업 수준 조합이 가장 좋은 성과를 보였습니다.

위 그림은 무조건적 및 작업별 조건부 멀티태스킹 도구 사용 확산 전략과 비교했을 때, 조건부 및 무조건적 멀티태스킹 도구 사용 전략이 더 나은 작업 조합을 가지고 있음을 보여줍니다.

인간 + 시뮬레이션 데이터, 도메인 수준 조합이 더 나은 성능을 보입니다.

연구진은 시뮬레이션된 데이터 세트 θsim, 인간 데이터 세트 θhuman, 로봇 데이터 세트 θrobot을 사용하여 별도의 정책 모델을 훈련하고, 시뮬레이션된 설정에서 도메인 수준의 조합을 평가했습니다.

시뮬레이션 전략을 사용하여 교차 도메인 조합 및 시뮬레이션 평가를 지원합니다.

θsim은 학습/테스트 도메인 갭이 없으므로 성능이 우수하며 92% 성공률을 달성할 수 있습니다. 연구진은 인간 데이터와 같은 분야에서 성능이 더 뛰어난 정책 θsim과 결합하여 성능을 크게 개선했습니다.

전략 조합의 성과는 개별 구성 요소의 성과를 능가하며 더욱 다재다능합니다.

연구진은 PoCo를 로봇 도구 사용 작업에 적용하여 다양한 도메인과 작업의 데이터를 결합하여 일반화 능력을 개선했습니다. 4가지 과제는 다음과 같습니다. 렌치로 나사를 조이고, 망치로 못을 박고, 삽으로 팬에서 팬케이크를 떠내고, 칼로 플라스틱을 자릅니다.

시뮬레이션, 인간, 실제 데이터에서 훈련된 정책을 결합함으로써 여러 방해 요소(행 1), 다양한 물체와 도구 포즈(행 2), 새로운 물체와 도구 인스턴스(행 3)에 대해 일반화할 수 있습니다.

도메인 조합에 대한 정량적 결과. 개별 구성 요소 전략과 비교했을 때 전략 조합은 평균 작업 성공률을 크게 향상시킵니다.

위 표에서 볼 수 있듯이, 인간 데이터로 학습된 전략과 실제 로봇 데이터로 학습된 전략은 서로 다른 시나리오에서 성능이 좋지 않음(시뮬레이션과 비교)하지만 이들의 조합(인간+현실)은 각각의 구성 요소를 능가할 수 있습니다.

다양한 도구 사용 작업의 전략적 성과. 도구 사용 작업에서는 작업 조합 전략의 전반적인 성능이 향상됩니다.

실제 세계를 통해 연구자들은 4가지 도구 사용 작업에 대한 로봇의 전략적 성능을 평가했으며 도구 사용 작업에서 다음과 같은 사실을 발견했습니다.업무 조합 전략의 성과가 더욱 향상되었습니다.위의 표에서 보듯이, 멀티태스크 전략의 성과는 Tspatula와 Thammer에 조건화된 특정 태스크의 성과와 거의 동일하며, 모두 정밀한 동작에서 어느 정도 안정성을 보여줍니다. 더욱이, 조합된 하이퍼파라미터는 효과적이고 안정적으로 범위 내에서 유지되어야 합니다.

보편성을 위한 최상의 조건: 인간형 로봇이 강력하게 부상하고 있습니다.

일반 용도 로봇은 지난 2년 동안 큰 발전을 이루었지만, 흥미로운 현상은 현재 업계가 인간형 로봇 개발을 촉진하는 쪽으로 기울고 있다는 것입니다.왜 일반용 로봇은 인간형이어야 할까?5Y 캐피털의 전무이사인 천저는 "인간형 로봇만이 인간 생활 환경의 다양한 상호작용 시나리오에 적응할 수 있기 때문"이라고 말했습니다. 로봇은 인간의 일을 도울 것이므로, 인간을 모방하고 인간의 모습으로 학습하는 것이 가장 좋습니다.

테슬라는 업계의 벤치마크로서 2022년 9월 초에 범용 휴머노이드 로봇 옵티머스를 출시했습니다. 처음에는 안정적으로 걷는 것조차 불가능했지만, 완전한 인간형 로봇 프로토타입을 갖추고 있으며 인간이 할 수 있는 기본적인 손재주 작업은 충족합니다. 테슬라의 소프트웨어와 하드웨어 기술이 지속적으로 발전함에 따라, 옵티머스는 더욱 흥미로운 기능을 갖추게 될 것이며, 그 사실은 이미 사실로 입증되었습니다.

GIF 커버

테슬라는 2024년 세계 인공지능 컨퍼런스에서 자사의 휴머노이드 로봇 옵티머스의 최신 연구 진행 상황을 보여주었습니다. 직립 보행 속도가 30%로 빨라졌고, 열 개의 손가락도 지각과 촉각이 발달하여 깨지기 쉬운 달걀을 부드럽게 쥐고 무거운 상자를 안정적으로 운반할 수 있습니다. Optimus는 테슬라 공장에서 시각 신경망과 FSD 칩을 사용해 인간의 작업을 모방해 배터리 분류 훈련을 실시하는 등 실제 적용을 시도한 것으로 알려졌습니다. 내년에는 테슬라 공장에 1,000대 이상의 인간형 로봇이 배치되어 인간의 생산 작업을 도울 것으로 예상됩니다.

마찬가지로, 2015년에 설립된 업계 선도적인 일반 로봇 회사인 상하이 푸리에 인텔리전트 테크놀로지(Shanghai Fourier Intelligent Technology Co., Ltd.)도 이번 컨퍼런스에 휴머노이드 로봇 GR-1을 선보였습니다. GR-1은 2023년 출시 이후 대량 생산 및 납품을 선도해 왔으며, 환경 인식, 시뮬레이션 모델, 동작 제어 최적화 등 여러 측면에서 고급 업그레이드를 달성했습니다.

또한, 엔비디아는 올해 3월 GTC 개발자 컨퍼런스에서 GR00T라는 인간형 로봇 프로젝트도 출시했습니다. 로봇은 인간의 행동을 관찰하여 자연어를 이해하고 행동을 모방함으로써 조정, 유연성 및 기타 기술을 빠르게 학습하여 실제 세계를 탐색하고 적응하며 상호 작용할 수 있습니다.

과학과 기술이 끊임없이 발전함에 따라 인간형 로봇이 인간과 기계, 현실과 미래를 연결하는 다리가 되어 우리를 더욱 스마트하고 나은 사회로 이끌어 줄 것이라고 믿을 만한 이유가 생겼습니다.

참고문헌:
https://m.163.com/dy/article/J69LAFDR0512MLBG.html
https://36kr.com/p/1987021834257154
https://hub.baai.ac.cn/view/211