연구팀, 카우랄 벨만 방정식으로 최적 에이전트 빠르게 훈련 가능
최근 미국 컬럼비아 대학의 이명환 박사와 연구팀은 인과 벨만 방정식을 제안했습니다. 이 방정식은 혼합 변수가 포함된 관측 데이터를 사용해 최적 가치 함수의 이론적 상한을 계산할 수 있습니다. 이 이론적 상한을 보상 함수 설계에 적용하면 특정 온라인 학습 알고리즘에서 더 빠르게 최적의 에이전트를 훈련시킬 수 있다는 점을 증명했습니다. 연구팀은 이 성과가 고차원적인, 현실적 응용을 위한 로봇 문제로 확장될 수 있을 것으로 기대합니다. 이를 통해 복잡한 작업을 수행하기 위해 로봇의 보상 함수를 자동으로 설계하는 것이 가능해질 것입니다. 보상 함수를 설계하는 데 필요한 데이터는 동일한 로봇이 작업을 성공적으로 완료한 데이터뿐만 아니라 유사한 능력을 가진 다른 에이전트의 비디오 데이터, 심지어 인간의 시연 비디오 데이터도 활용할 수 있습니다. 특정 작업의 진행 상황을 명확히 평가하기 어려운 경우, 훈련 과정을 돕기 위해 많은 추가적인 감독 신호가 필요해집니다. 예를 들어, 강화 학습 알고리즘을 사용해 메커니컬 핸드가 루빅스 큐브를 푸는 방법을 훈련시키는 경우, 가장 직관적인 작업 완료 신호는 지정된 시간 내에 루빅스 큐브를 풀었는지 여부입니다. 그러나 이 매크로적인 평가 지표만으로는 훈련 중에 어떤 단계가 올바른지, 잘못된지를 구분하기 어려운 경우가 많습니다. 따라서 '작업 완료 여부'라는 단일 지표만으로는 강화 학습 알고리즘이 효과적인 훈련 데이터를 얻는 것이 거의 불가능합니다. 이는 OpenAI가 초기에 메커니컬 핸드가 루빅스 큐브를 푸는 방법을 훈련시키는 논문에서 여러 추가적인 보상 신호를 도입하여 메커니컬 핸드의 손가락 동작이 합리적인지, 현재 루빅스 큐브 상태가 알고리즘이 예측한 해결책과 일치하는지를 감독한 것과 마찬가지입니다. 또한, 비디오 게임을 플레이하는 경우에도 게임 중에 명확한 임무 가이드나 점수 피드백이 없다면, 게임 종료 시점에 승리 여부를 알 수 있는 경우가 많습니다. 이러한 경우, 게임을 클리어하는 것이 어렵거나 오랜 시간 동안 시도해야 할 수 있습니다. 따라서, 에이전트 훈련 과정에서는 특정 작업을 위해 많은 추가적인 보상 및 처벌 신호를 추가하여 프로세스 감독을 도와주는 PBRS(Potential Based Reward Shaping) 알고리즘이 많이 사용됩니다. 이 알고리즘은 1999년에 중국 학자인 안드루 응(Andrew Ng)이 제안했습니다. 그러나 새로운 작업마다 보상 신호를 설계하고 조정하는 데 많은 시간과 인력이 필요하며, 이는 현대 사회에서 증가하는 에이전트 수요에 비춰볼 때 지속 가능한 해결책이 아닙니다. 이명환 박사와 연구팀은 이러한 문제를 해결하기 위해 기존 데이터에서 합리적인 추가 보상 신호를 자동으로 학습할 수 있는 방법을 모색했습니다. 직관적으로는 몬테카를로 방법을 사용해 가치 함수를 추정하고, 각 상태 간의 가치 차이를 추가 보상 신호로 사용할 수 있습니다. 그러나 데이터셋이 성능이 좋은 에이전트가 생성하지 않았거나, 혼합 편향이 포함되어 있는 경우, 이 방법으로 추정된 가치 함수는 편향될 수 있으며, 최적 가치 함수와 크게 다를 수 있습니다. 그래서 이번 논문에서는 인과 추론 도구를 활용해 여러 혼합 편향이 포함된 데이터셋에서 합리적인 보상 함수를 자동으로 학습하는 방법을 탐구했습니다. 연구팀은 이 보상 함수가 특정 에이전트 훈련의 효율성을 크게 향상시킨다는 것을 이론적으로 증명했으며, 대규모 실험 결과도 이러한 발견을 뒷받침합니다. 이명환 박사는 초기에는 이러한 알고리즘 개선이 샘플 복잡도에 큰 개선을 가져올 것이라고 생각하지 않았습니다. 그 이유는 많은 선행 연구들이 안드루 응이 제안한 PBRS 방식으로 추가 보상 신호를 도입하더라도 대부분의 경우 샘플 복잡도에 영향을 미치지 않는다는 것을 입증했기 때문입니다. 이에 대해 그의 지도교수도 실험적으로 관찰된 큰 성능 향상을 설명할 수 없다는 점에 대해 아쉬움을 표현했습니다. 하지만 이명환이 포기하기 직전, 그는 최근의 온라인 탐색 알고리즘 복잡도 분석 논문을 다시 살펴보았습니다. 이번에는 특히 논문 부록의 증명 세부 내용에 주목했습니다. 그러다 그는 여러 다른 논문에서 사용된 중간 결론들이 연관되어 자신이 원하는 샘플 복잡도 결론을 증명할 수 있을 것이라는 직관을 얻었습니다. "그 순간의 직감은 나중에 옳다는 것이 증명되었고, 결론은 매우 깔끔하고 아름다웠습니다. 때로는 코드 작성 중에 마지막 조각을 찾은 것 같은 증명의 즐거움을 느끼곤 합니다."라고 그는 말했습니다. 이 연구는 '혼합 오프라인 데이터에서 보상 형성의 자동화'라는 제목으로 2025년 국제 머신 러닝 회의(ICML, International Conference on Machine Learning)에서 발표될 예정입니다. 현재 연구팀은 이 이론을 더 큰 규모의 문제로 확장하기 위해 노력하고 있습니다. 예를 들어, 아타리 게임(atari games)과 연속 상태 및 행동 공간이 필요한 로봇 제어 문제 등입니다. 업계 전문가들은 이 연구가 기존의 강화 학습 알고리즘의 한계를 극복하고, 실시간 환경에서의 에이전트 훈련 효율성을 크게 향상시킬 수 있을 것으로 평가하고 있습니다. 또한, 이 방법이 다양한 데이터셋을 활용할 수 있으므로, 에이전트 훈련에 있어 유연성과 지속 가능성 측면에서 중요한 진전을 이루었다는 의견도 제시되었습니다. 컬럼비아 대학의 연구팀은 이러한 이론을 실제 응용 문제로 확장하는 데 있어 선두주자 역할을 할 것으로 기대됩니다.