
초록
언어 모델(LMs)은 사용자의 실제 의도를 충족하지 않고도 높은 점수를 얻기 위해 오염되거나 오류가 있는 문서화된 사양이나 평가 기준을 악용하는 '컨텍스트 내 보상 해킹'에 취약할 수 있다. 우리는 모델이 자체 지침 사양 내 결함을 식별하고 수정할 수 있도록 하는 새로운 '사양 자기 수정(Specification Self-Correction, SSC)' 테스트 시 프레임워크를 제시한다. SSC는 다단계 추론 과정을 활용하며, 모델은 먼저 오염된 사양에 기반해 응답을 생성하고, 생성된 출력을 검토한 후, 악용 가능한 취약점을 제거하기 위해 자체 사양을 수정한다. 이후 이 수정된 사양을 사용하여 더 견고한 응답을 생성한다. 다양한 언어 모델을 대상으로 한 실험을 통해, 초기에는 50~70%의 경우 모델이 오염된 사양을 악용하는 것을 보여주었으나, SSC 프로세스를 적용함으로써 이 취약성을 90% 이상 줄일 수 있음을 입증하였다. 이러한 동적 수정은 추론 시점에 이루어지며, 가중치 수정이 필요하지 않으며, 모델의 행동이 더 견고하게 일치하게 만든다. 코드는 https://github.com/vicgalle/specification-self-correction 에서 확인할 수 있다.