HyperAI초신경
2일 전

SPIRAL: 제로섬 게임에서의 자기 대결이 다중 에이전트 다턴 강화 학습을 통해 추론을 유도함

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
SPIRAL: 제로섬 게임에서의 자기 대결이 다중 에이전트 다턴 강화 학습을 통해 추론을 유도함
초록

최근 강화 학습의 발전은 언어 모델이 검증 가능한 보상으로 훈련된 작업을 통해 복잡한 추론 능력을 개발할 수 있다는 것을 보여주었습니다. 그러나 이러한 접근 방식은 인간이 큐레이팅한 문제-답 쌍과 도메인 특화 보상 설계에 의존합니다. 우리는 SPIRAL이라는 자기 대결 프레임워크를 소개합니다. 이 프레임워크에서는 모델들이 지속적으로 개선되는 자신의 버전들과 여러 차례 진행되는 제로섬 게임을 하면서 학습하여 인간의 감독 없이도 가능하도록 설계되었습니다.SPIRAL은 자기 대결을 통해 점점 더 어려운 문제들을 무한히 생성하며, 모델들은 항상 더 강력한 상대방에 적응해야 합니다. 이러한 규모의 자기 대결 훈련을 가능하게 하기 위해, 우리는 완전 온라인, 여러 차례 진행되는 다중 에이전트 강화 학습 시스템을 구현하였으며, 다중 에이전트 훈련을 안정화하기 위해 역할 조건부 우위 추정(role-conditioned advantage estimation, RAE) 방법을 제안하였습니다.SPIRAL을 사용하여 제로섬 게임에서 자기 대결을 수행하면 광범위하게 전이되는 추론 능력이 생성됩니다. Kuhn 포커만으로 Qwen3-4B-Base를 훈련시키면 수학 성능에서 8.6%, 일반적인 추론 성능에서 8.4%의 개선 효과가 나타나며, 25,000개의 전문가 게임 트라젝토리에서 SFT를 초월하는 결과를 보였습니다. 분석 결과는 이 전이가 세 가지 인지 패턴—체계적인 분해, 기대값 계산, 사례별 분석—을 통해 이루어진다는 것을 밝혔습니다.다양한 게임(TicTacToe, Kuhn 포커, 간단한 협상)으로 이루어진 다중 게임 훈련은 각 게임이 고유한 추론 능력을 개발함으로써 성능을 더욱 높입니다. SPIRAL을 강력한 추론 모델(DeepSeek-R1-Distill-Qwen-7B)에 적용하더라도 평균 2.0%의 개선 효과를 얻을 수 있었습니다. 이러한 결과는 제로섬 게임이 자연스럽게 전이 가능한 추론 능력을 개발한다는 것을 입증하며, 자율적 추론 발전에 대한 유망한 방향성을 제시하고 있습니다.