콜로세움: 로봇 조작의 일반화 평가를 위한 벤치마크

대규모 실세계 로봇 응용 프로그램을 효과적으로 구현하기 위해서는 환경 조건의 변화에 얼마나 잘 적응하는지 평가해야 합니다. 그러나 대부분의 연구에서는 훈련 설정과 매우 유사하거나 동일한 환경에서 로봇 성능을 평가합니다. 우리는 20개의 다양한 조작 작업으로 구성된 새로운 시뮬레이션 벤치마크인 THE COLOSSEUM을 제시합니다. 이 벤치마크는 환경 섭동(perturbations)의 14개 축에 걸쳐 모델을 체계적으로 평가할 수 있도록 설계되었습니다. 이러한 섭동은 객체, 테이블, 배경의 색상, 질감, 크기 변화뿐만 아니라 조명, 방해물, 물리적 특성 섭동 및 카메라 포즈도 포함됩니다.THE COLOSSEUM을 사용하여 5개의 최신 조작 모델을 비교한 결과, 이러한 섭동 요인에 따라 성공률이 30-50% 감소함을 확인했습니다. 여러 섭동이 동시에 적용될 때 성공률은 75% 이상 감소하는 것으로 나타났습니다. 우리는 방해물 객체의 수, 대상 객체의 색상 또는 조명 조건의 변화가 모델 성능을 가장 많이 저하시키는 섭동임을 파악했습니다. 우리의 결과가 생태학적으로 유효한지를 검증하기 위해, 시뮬레이션에서 얻은 결과가 실제 실험에서 유사한 섭동과 상관관계($\bar{R}^2 = 0.614$)를 보이는 것을 보여주었습니다.우리는 THE COLOSSEUM을 다른 연구자들이 사용할 수 있도록 오픈 소스 코드를 공개하고, 실제 세계 섭동을 재현하기 위해 사용되는 객체를 3D 프린팅하기 위한 코드도 제공합니다. 궁극적으로 우리는 THE COLOSSEUM이 조작 일반화를 체계적으로 개선하는 모델링 결정을 식별하는 벤치마크로 활용되기를 바랍니다. 자세한 내용은 https://robot-colosseum.github.io/를 참조하세요.