12일 전

부분적으로 분리된 강화학습과 벡터화된 다양성을 통한 1시간 내 실세계 지역 경로 계획기 훈련

Jinghao Xin, Jinwoo Kim, Zhi Li, Ning Li
부분적으로 분리된 강화학습과 벡터화된 다양성을 통한 1시간 내 실세계 지역 경로 계획기 훈련
초록

딥 강화 학습(DRL)은 국지적 경로 계획(LPP) 문제 해결에 있어 효과를 보여주고 있다. 그러나 DRL의 학습 효율성과 일반화 능력이 부족함으로 인해 실세계 적용은 극히 제한적이다. 이러한 두 가지 문제를 완화하기 위해, 액터-쉐어러-러너(ASL) 학습 프레임워크와 모바일 로봇을 대상으로 한 시뮬레이터인 스파로(Sparrow)로 구성된 'Color'라는 솔루션이 제안된다. 구체적으로 ASL은 DRL 알고리즘의 학습 효율성을 향상시키는 것을 목표로 한다. 이는 벡터화된 데이터 수집(VDC) 방식을 도입하여 데이터 수집 속도를 가속화하고, 멀티스레딩을 통해 데이터 수집과 모델 최적화를 분리함으로써 효율성을 높이며, 시간 피드백 메커니즘(TFM)을 활용해 두 과정을 부분적으로 연결함으로써 데이터의 부족 또는 과잉 사용을 방지한다. 한편, 스파로 시뮬레이터는 2차원 격자 기반의 세계 모델, 단순화된 운동학 모델, 그리고 변환 없이 직렬화된 데이터 흐름을 통해 경량화된 설계를 실현한다. 이러한 경량성은 벡터화된 다양성을 가능하게 하여, 벡터화된 환경의 대규모 복제를 통해 다양한 시뮬레이션 설정을 구현할 수 있게 하며, 학습 중인 DRL 알고리즘의 일반화 능력에 상당한 향상을 가져온다. 효율성과 일반화 능력 측면에서 제안된 방법의 우수성을 입증하기 위해, 총 57개의 DRL 벤치마크 환경, 32개의 시뮬레이션 기반 LPP 시나리오, 36개의 실제 환경 기반 LPP 시나리오를 포함한 포괄적인 실험을 수행하였다. 본 논문의 코드 및 영상은 https://github.com/XinJingHao/Color 에서 확인할 수 있다.

부분적으로 분리된 강화학습과 벡터화된 다양성을 통한 1시간 내 실세계 지역 경로 계획기 훈련 | 최신 연구 논문 | HyperAI초신경