구글 딥마인드, CROME로 LLM 보상 모델의 인과적 로버스트성 향상
크롬: 구글 딥마인드의 강건한 보상 모델링을 위한 인과적 프레임워크 보상 모델은 LLM(대형 언어 모델)이 인간 피드백에 맞춰 조정되는 핵심 구성 요소지만, 보상 해킹 문제를 겪고 있다. 이러한 모델들은 응답 길이나 형식과 같은 표면적인 속성에 집중하여 사실성과 관련성과 같은 진정한 품질 지표를 식별하지 못한다. 이는 표준 훈련 목표가 훈련 데이터에 존재하는 잘못된 상관관계와 응답 품질의 실제 원인 사이를 구분하지 못하기 때문에 발생한다. 이러한 요소를 분리하지 못하면 약한 보상 모델(RM)이 생성되어 잘못된 정책을 생성한다. 또한, 다양한 잘못된 신호에 대해 강건한 훈련 메커니즘을 갖춘 RM을 얻기 위해 선호도 형성의 인과적 이해를 활용하는 방법이 필요하다. 기존 RM 접근 방식의 한계와 인과적 강건성의 필요성 현재의 방법들은 Bradley-Terry 또는 쌍별 순위 결정 방법에 기반한 표준 RLHF(강화 학습을 통한 인간 피드백) 시스템에서 보상 해킹 문제를 해결하려고 한다. 이에는 오딘(Architectural modifications), 정책 수준 조정, 앙상블 또는 일관성 검사를 포함하는 데이터 중심 방법 등이 있다. 최근 인과적 접근 방법들은 사전에 지정된 잘못된 요소에 대한 MMD 정규화나 수정된 리라이트를 통해 인과 효과를 추정하는 등의 기술을 사용하지만, 알려지지 않은 상관관계를 놓치는 경향이 있다. 또한, 증강 전략은 아직 거칠며, 평가 중점적 방법들은 다양한 잘못된 변형에 대해 강건한 훈련 메커니즘을 제공하지 못한다. 크롬 소개: LLM용 인과적으로 강건한 보상 모델링 구글 딥마인드, 맥길 대학교, 그리고 MILA - 캐나다 AI 연구소의 연구원들은 크롬(Causally Robust Reward Modeling)이라는 인과적 답변 생성 모델에 기반한 프레임워크를 제안했다. 크롬은 LLM이 생성한 대안적 예제를 포함한 선호도 데이터셋을 추가하여 진정한 품질 드라이버와 표면적인 신호를 구분하도록 RM을 훈련시킨다. 이를 위해 두 가지 유형의 합성 훈련 쌍을 생성한다: (a) 인과적 증강(Causal Augmentations), 특정 인과 속성을 변경하여 진정한 품질 변화에 대한 감도를 높이고, (b) 중립적 증강(Neutral Augmentations), 스타일과 같은 잘못된 속성을 무시하도록 하기 위해 동점 라벨을 사용한다. 크롬은 강건성을 향상시키며, RewardBench 정확도를 최대 4.5%까지 개선하고 안전성과 추론 능력을 향상시킨다. 기술적 접근: 대안적 증강과 복합 손실 최적화 크롬은 두 단계로 작동한다: 인과 모델에 기반한 속성 인식 대안 데이터 생성과 결합된 데이터에 대한 특수화된 손실을 사용한 보상 모델 훈련. 연구원들은 이상화된 모델 하에서 인과적 증강이 실제 보상 드라이버와 잘못된 상관관계를 어떻게 분리하는지 이론적으로 분석하고, UltraFeedback 데이터셋을 사용하여 Gemini 2.0 Flash를 통해 대안 데이터를 생성한다. 성능은 RewardBench와 reWordBench에서 평가되며, 실험에는 Gemma-2-9B-IT, Qwen2.5-7B, Gemma-2-2B 등 다양한 기본 LLM이 사용되었다. 이들 모델은 쌍별 선호도 및 Bradley-Terry 보상 모델에 대해 Best-of-N 선택을 통해 여러 작업에서 하류 조정 영향을 평가한다. 성능 개선: RewardBench부터 WildGuardTest까지 RewardBench에서 크롬은 다양한 기본 모델을 통해 RRM보다 랭킹 정확도를 향상시키며, 특히 안전성(최대 13.18%)과 추론(최대 7.19%) 카테고리에서 큰 성과를 보였다. reWordBench에서는 Gemma-2-9B-IT를 사용한 쌍PM 설정에서 총 정확도가 최대 9.1% 향상되었으며, 23개 변환 중 21개에서 우월한 성능을 보였다. 또한, RewardBench에서 reWordBench으로의 랭킹 정확도 감소가 RRM(19.78%)보다 크롬(21.54%)에서 더 적었다. WildGuardTest에서 Best-of-N 선택을 통해 크롬은 유해한 프롬프트에 대한 공격 성공률을 낮추면서 양호한 프롬프트에 대한 거절률을 유지하는 뛰어난 안전성 향상을 보였다. 결론 및 미래 방향: 인과적 데이터 증강 연구원들은 보상 모델 훈련 중 보상 해킹 문제를 해결하기 위한 인과적 프레임워크인 크롬을 소개했다. 크롬은 인과적 증강과 중립적 증강 두 가지 대상 합성 데이터 증강 전략을 사용한다. 크롬은 RewardBench에서 여러 기본 모델과 보상 모델링 기법에 걸쳐 강력한 베이스라인을 능가하며, reWordBench에서 다양한 잘못된 상관관계에 대해 우월한 강건성을 보였다. 이 데이터셋 큐레이션 중심 훈련 방법은 기본 모델 훈련을 위한 합성 데이터 생성 연구에 새로운 방향을 제시하며, 인과적 속성 검증이 미래의 강건한 언어 모델 조정 발전에 매우 유익할 것으로 보인다. 업계 인사이더들의 평가와 회사 프로필 크롬은 언어 모델의 안전성과 효율성을 크게 향상시키는 데 중요한 역할을 할 것으로 예상된다. 구글 딥마인드는 인공 지능 연구의 선두 주자로, 이 프로젝트를 통해 딥러닝 모델의 조정 과정에서 인과적 증강의 중요성을 강조하고 있다. 또한, 맥길 대학교와 MILA - 캐나다 AI 연구소는 이 연구를 지원하며, 인과적 데이터 증강 기술의 잠재력을 인정하고 있다. 크롬의 성공은 앞으로의 연구에서 더욱 확장될 것으로 기대되며, 다양한 적용 분야에서 강건한 LLM을 개발하는 데 큰 도움이 될 것이다.