Command Palette

Search for a command to run...

한 달 전

다중 플레이어 내쉬 선호 최적화

다중 플레이어 내쉬 선호 최적화

초록

인간 피드백을 통한 강화학습(RLHF)은 대규모 언어모델(LLM)을 인간의 선호와 일치시키는 데 있어 표준적인 접근 방식으로 부상했다. 그러나 브래들리-테리 가정(Bradley-Terry assumption)을 기반으로 한 보상 기반 방법은 현실 세계의 선호가 가지는 비전이성(non-transitive)과 이질성(heterogeneous)을 충분히 반영하지 못하는 한계를 지닌다. 이를 해결하기 위해 최근 연구들은 일치화(alignment)를 두 명의 플레이어 간 나시 게임(Nash game)으로 재정의하며, 인간 피드백을 통한 나시 학습(NLHF)이라는 새로운 접근법을 제안했다. 이 관점은 INPO, ONPO, EGPO와 같은 이론적·실증적 보장이 강한 알고리즘들을 탄생시켰지만, 여전히 두 명의 플레이어 간 상호작용에 국한되어 있어 단일 상대자 편향(single-opponent bias)을 겪으며 현실적인 선호 구조의 복잡성을 충분히 반영하지 못한다. 본 연구에서는 이러한 한계를 극복하기 위해, 다중 플레이어 나시 선호 최적화(MNPO)라는 새로운 프레임워크를 제안한다. MNPO는 NLHF를 다중 플레이어 환경으로 일반화한 것으로, 각 정책(policy)이 대규모의 상대 플레이어 집단과 경쟁하면서 기준 모델(reference model) 방향으로 정규화되는 n명의 플레이어 게임으로 일치화를 수식화한다. 본 프레임워크는 다중 플레이어 환경에서 명확한 나시 균형(Nash equilibrium)을 보장하며, 근사 품질을 측정하기 위해 이중성 갭(duality gap) 개념을 확장한다. 실험적으로 MNPO가 두 명 플레이어 기반 방법의 균형 보장을 그대로 계승하면서도 더 풍부한 경쟁 역학과 다양한 선호 구조의 보다 우수한 커버리지를 가능하게 함을 입증하였다. 광범위한 실증 평가를 통해 MNPO가 지시어 따르기 벤치마크에서 기존 NLHF 기반 모델들을 일관되게 상회하며, 이질적인 평가자 조건 하에서도 우수한 일치도를 달성하고, 혼합 정책 평가 시나리오에서도 뛰어난 성능을 보임을 확인하였다. 이러한 결과들은 MNPO가 복잡하고 비전이적인 인간 선호와 일치시키는 데 있어 체계적이고 확장 가능한 프레임워크임을 입증한다. 코드는 https://github.com/smiles724/MNPO 에서 공개된다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중 플레이어 내쉬 선호 최적화 | 연구 논문 | HyperAI초신경