다중 무인 항공기 탐사 제어를 위한 융합-다중액터-주목-비평가 기반의 다에이전트 강화 학습
무인 항공기(UAV)의 급속한 확산은 다양한 지능형 서비스를 촉진하였으며, 이들 서비스에서 효율적인 협업은 공동 수행의 효과를 높이는 데 핵심적인 역할을 한다. 그러나 UAV의 운영 시간과 범위가 제한되어 있어, 특히 미지의 동적 환경에서 높은 효율의 협업 행동을 달성하는 것은 어려운 과제이다. 본 논문은 다중 UAV의 에너지 효율적인 공동 항법 제어를 위한 다에이전트 심층 강화학습(MADRL) 기반의 퓨전-다액터-어텐션-크리틱(F-MAAC) 모델을 제안한다. 제안된 모델은 다액터-어텐션-크리틱(MAAC) 모델을 기반으로 하며, 두 가지 중요한 개선점을 제공한다. 첫째, 센서 융합 레이어를 도입하여 액터 네트워크가 필요한 모든 센서 정보를 효과적으로 활용할 수 있도록 했다. 둘째, MAAC 모델의 어텐션 레이어에서 발생하는 정보 손실을 보완하기 위해, 다양한 에이전트 간의 비유사도 가중치를 계산하는 레이어를 추가하였다. 본 연구에서는 Unity 엔진을 활용해 구축한 UAV LDS(로지스틱 배송 서비스) 환경을 이용하여 제안된 모델을 학습시키고 에너지 효율성을 검증하였다. UAV가 이동한 총 거리를 측정하는 특성도 UAV LDS 환경과 결합하여 에너지 효율성 검증에 활용하였다. 제안된 모델의 성능을 입증하기 위해, F-MAAC 모델을 여러 전통적인 강화학습 모델과 비교하였으며, 두 가지 사용 사례를 기반으로 분석하였다. 먼저, 20,000 에피소드에 걸친 학습 과정에서 평균 에피소드 보상 기준으로 F-MAAC 모델을 DDPG, MADDPG, MAAC 모델과 비교하였다. 이후 성능이 우수한 두 모델(F-MAAC 및 MAAC)을 선정하여 150,000 에피소드에 걸쳐 재학습하였다. 본 연구는 동일 기간 내 수행된 총 배송 건수와 동일 거리당 수행된 총 배송 건수를 에너지 효율성을 나타내는 지표로 활용하였다. 시뮬레이션 결과에 따르면, F-MAAC 모델은 MAAC 모델보다 우수한 성능을 보였으며, 3,000 타임스텝 내에서 38% 더 많은 배송을 수행했고, 1,000m 이동당 30% 더 많은 배송을 완료하였다.