Search for a command to run...
대규모 모델 시대의 Reward Hacking: 메커니즘, 창발적 정렬 불일치(Emergent Misalignment), 그리고 과제