HyperAI초신경
Back to Headlines

구글 딥마인드, 크롬 출시: 대형 언어 모델의 인간 피드백 대응력 향상

2일 전

인공지능(AI) 분야에서 대형 언어 모델(LLMs)을 인간 피드백에 맞추는 데 중요한 역할을 하는 보상 모델(Reward Models, RMs)은 '보상 해킹' 문제를 겪고 있습니다. 이러한 모델은 응답의 길이나 형식과 같은 표면적인 특성을 중점적으로 고려하지만, 사실성과 관련성과 같은 진정한 품질 지표를 식별하지 못하는 경향이 있습니다. 이 문제의 원인은 표준 훈련 목표가 훈련 데이터에서 존재하는 허위 연관성과 실제 인과적 요인을 구분하지 못하는 데 있습니다. 이로 인해 RMs은 취약하여 잘못된 정책을 생성하게 됩니다. 이러한 문제를 해결하기 위해서는 인과적 이해를 활용하여 진정한 품질 속성에 민감하고 다양한 허위 신호에 불변인 RMs을 훈련시키는 새로운 방법이 필요합니다. 기존의 RM 접근 방식은 Bradley-Terry 또는 쌍별 순위 결정 방법을 기반으로 한 표준 RLHF 시스템의 보상 해킹 문제를 해결하려고 합니다. 이에는 아키텍처 수정, 정책 수준 조정, 앙상블 또는 일관성 검사와 같은 데이터 중심 방법이 포함됩니다. 최근의 인과적 접근 방법은 MMD 정규화를 사용하여 미리 지정된 허위 요인에 대해 정제하거나, 수정된 재작성을 통해 인과 효과를 추정합니다. 그러나 이러한 방법은 미리 결정된 허위 요인만을 대상으로 하므로 알려지지 않은 연관성을 포착하지 못합니다. 또한, 증강 전략은 여전히 ​​조악하며, 평가 중심의 방법은 다양한 허위 변동에 대한 강력한 훈련 메커니즘을 제공하지 못합니다. 이러한 도전 과제를 해결하기 위해 Google DeepMind, McGill University, 그리고 MILA – Quebec AI Institute 연구진은 Crome(Causally Robust Reward Modeling)라는 프레임워크를 제안했습니다. Crome은 답변 생성에 대한 명확한 인과 모델을 바탕으로, 진정한 품질 드라이버와 표면적인 신호를 구분하도록 RMs을 훈련시키는 데 초점을 맞춥니다. 이를 위해 Crome은 특정 인과 속성을 변경하여 진정한 품질 변화에 민감성을 강화하는 '인과적 증강(Causal Augmentations)'과 스타일과 같은 허위 속성을 고려하지 않도록 '중립적 증강(Neutral Augmentations)'을 사용하여 훈련 데이터셋을 생성합니다. Crome의 작동 방식은 두 가지 주요 단계로 이루어집니다: 인과 모델을 바탕으로 속성 인식형 반사실적 데이터를 생성하고, 이러한 데이터를 결합하여 특화된 손실 함수를 통해 보상 모델을 훈련시키는 것입니다. 연구팀은 이론적 분석을 제공하여 이상화된 모델 하에서 인과적 증강이 진정한 보상 드라이버와 허위 연관성을 분리하는 방법을 설명합니다. Crome은 UltraFeedback 데이터셋을 이용하여 Gemini 2.0 Flash를 통해 반사실적 데이터를 생성하고, RewardBench와 reWordBench를 통해 성능을 평가합니다. 실험에서는 Gemma-2-9B-IT, Qwen2.5-7B, Gemma-2-2B 등의 다양한 기초 LLMs를 사용하여 Pairwise Preference와 Bradley-Terry 보상 모델을 훈련시켰습니다. 성능 향상 결과는 매우 인상적입니다. Crome은 RewardBench에서 RRM과 비교하여 다양한 기초 모델에서 순위 정확도를 개선했습니다. 특히 안전성(Safety) 부문에서는 최대 13.18%의 향상, 추론(Reasoning) 부문에서는 최대 7.19%의 향상을 나타냈습니다. Crome은 reWordBench에서도 집계 정확도를 최대 9.1%까지 향상시키며, 23개 변환 중 21개에서 우수한 성능을 보였습니다. 또한, Crome은 RewardBench에서 reWordBench로의 정확도 하락 비율이 RRM(19.78%)보다 낮은 21.54%를 기록했습니다. Best-of-N 선택을 통한 WildGuardTest에서 Crome은 유해한 프롬프트에 대한 공격 성공률을 낮추면서도 무해한 프롬프트에 대한 거절률은 유사한 수준을 유지하는 뛰어난 안전성 향상을 보였습니다. 결론적으로, 연구진은 Crome이라는 인과적 프레임워크를 소개하여 보상 모델의 취약성을 해결했습니다. Crome은 인과적 증강과 중립적 증강 전략을 통해 여러 기초 모델과 보상 모델링 기술에서 강력한 성능 향상을 이뤘습니다. 특히 reWordBench에서 다양한 허위 연관성에 대해 뛰어난 강건성을 보여주었습니다. 이러한 데이터 셋 조성 중심의 훈련 방법은 미래의 강건한 언어 모델 정렬 개발을 위한 새로운 연구 방향을 제시하며, 인과적 속성 검증이 합성 데이터 생성에 큰 도움이 될 것으로 기대됩니다. Crome 프레임워크는 Google DeepMind, McGill University, 그리고 MILA – Quebec AI Institute 연구진에 의해 제안되었습니다. Crome은 인과적 증강과 중립적 증강 전략을 통해 다양한 작업에서 모델 성능을 크게 향상시키고, 특히 안전성 테스트에서 공격 성공률을 낮추며 모델의 신뢰성을 향상시키는 데 성공했습니다. 이러한 연구는 합성 데이터 생성을 통해 기초 모델 훈련에 새로운 가능성을 제공할 것으로 보입니다.

Related Links