SAM2Act: 시각 기반 모델과 메모리 아키텍처의 통합을 통한 로봇 조작

다양하고 동적인 환경에서 작동하는 로봇 조작 시스템은 세 가지 핵심 능력을 갖춰야 한다. 즉, 다중 작업 상호작용, 미처 경험하지 않은 시나리오에 대한 일반화 능력, 그리고 공간 기억 능력이다. 로봇 조작 분야에서는 상당한 진전이 있었지만, 기존의 접근 방식은 복잡한 환경 변화에 대한 일반화 능력이 부족하고, 기억에 의존하는 작업을 효과적으로 처리하지 못하는 한계가 있다. 이러한 격차를 메우기 위해 우리는 대규모 기초 모델의 시각적 표현을 활용한 다중 해상도 업샘플링 기법을 적용한 다중 시점 기반 로봇 트랜스포머 정책인 SAM2Act를 제안한다. SAM2Act는 RLBench 벤치마크에서 18개의 작업에 걸쳐 최고 수준의 평균 성공률 86.8%를 달성하였으며, 다양한 환경적 외란 상황에서도 The Colosseum 벤치마크에서 4.3%의 성능 차이로 우수한 일반화 성능을 보였다. 이 기반 위에서 우리는 SAM2에서 영감을 얻어 메모리 기반 아키텍처인 SAM2Act+를 제안한다. SAM2Act+는 메모리 백, 인코더, 어텐션 메커니즘을 포함하여 공간 기억 능력을 강화한다. 또한 기억에 의존하는 작업을 평가하기 위한 필요성을 충족하기 위해, 로봇 조작에서 공간 기억 및 동작 재현 능력을 평가할 수 있도록 설계된 새로운 벤치마크인 MemoryBench를 도입한다. SAM2Act+는 MemoryBench에서 메모리 기반 작업에 대해 평균 성공률 94.3%를 기록하며, 기존 접근 방식을 크게 앞서며 메모리 기반 로봇 시스템의 한계를 극복하는 데 기여한다. 프로젝트 페이지: sam2act.github.io