Command Palette
Search for a command to run...
듀얼 모드 전략 최적화 BPO
이중 모드 정책 최적화(BPO)는 텐센트 훈위안 팀과 중국 과학원이 2025년 8월에 공동으로 제안했습니다. 관련 연구 결과는 "R-4B: 바이모드 어닐링 및 강화 학습을 통한 MLLM의 범용 자동 사고 능력에 대한 인센티브 제공".
BPO는 자동화된 사고를 위해 설계된 강화 학습 알고리즘입니다. 복잡한 보상 함수를 필요로 하거나, 데이터 의존성이 높거나, 하이퍼파라미터 민감도에 취약한 기존 강화 학습(RL) 방식과 달리, BPO는 간단한 규칙 기반의 수학적 보상을 활용합니다. 이 방식은 사고 모드와 비사고 모드를 모두 포함하도록 하여, 강화 학습 훈련 중 모델이 특정 모드에 치우치는 것을 방지합니다.