한 달 전

추론 또는 암기? 강화학습의 데이터 오염으로 인한 신뢰성 없는 결과

Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
추론 또는 암기? 강화학습의 데이터 오염으로 인한 신뢰성 없는 결과
초록

대형 언어 모델(LLM)의 추론 능력은 오랜 시간 동안 연구의 주요 초점이었습니다. 최근 연구에서는 강화 학습(RL)을 사용하여 이러한 능력을 더욱 향상시키고 있으며, 많은 새로운 방법들이 최소한의 외부 감독 또는 전혀 없이도 상당한 개선을 주장하고 있습니다. 놀랍게도, 일부 연구는 무작위적 또는 잘못된 보상 신호가 추론 성능을 향상시킬 수 있다는 점을 제시하기도 합니다. 그러나 이러한 혁신들은 대부분 Qwen2.5 모델 가족에서보고되고 있으며, MATH-500, AMC, AIME와 같은 잘 알려진 벤치마크에서 평가되었지만, Llama와 같은 다른 모델에서는 유사한 성과를 이루지 못하고 있어 추가적인 조사가 필요합니다. 우리의 분석 결과에 따르면, Qwen2.5는 강력한 수학적 추론 성능을 달성하지만 대규모 웹 코퍼스에서的事前训练使其在流行基准中容易受到数据污染的影响。因此,从这些基准得出的结果可能是不可靠的。为了解决这一问题,我们引入了一个生成器,该生成器可以生成任意长度和难度的完全合成算术问题,从而产生我们称之为RandomCalculation的干净数据集。使用这些无泄漏的数据集,我们证明只有准确的奖励信号才能持续提高性能,而嘈杂或错误的信号则不能。我们主张在未受污染的基准上以及跨多种模型家族评估RL方法,以确保得出可信的结论。(注:由于原文中的“事前训练使其在流行基准中容易受到数据污染的影响”部分是中文,我将其翻译成了韩文如下:)Qwen2.5의 사전 학습은 대규모 웹 코퍼스에서 이루어졌기 때문에 인기 있는 벤치마크에서 데이터 오염에 취약합니다. 따라서 이러한 벤치마크에서 도출된 결과는 불신뢰할 수 있습니다.完整的翻译如下:대형 언어 모델(LLM)의 추론 능력은 오랜 시간 동안 연구의 주요 초점이었습니다. 최근 연구에서는 강화 학습(RL)을 사용하여 이러한 능력을 더욱 향상시키고 있으며, 많은 새로운 방법들이 최소한의 외부 감독 또는 전혀 없이도 상당한 개선을 주장하고 있습니다. 놀랍게도, 일부 연구는 무작위적 또는 잘못된 보상 신호가 추론 성능을 향상시킬 수 있다는 점을 제시하기도 합니다. 그러나 이러한 혁신들은 대부분 Qwen2.5 모델 가족에서 보고되고 있으며, MATH-500, AMC, AIME와 같은 잘 알려진 벤치마크에서 평가되었지만, Llama와 같은 다른 모델에서는 유사한 성과를 이루지 못하고 있어 추가적인 조사가 필요합니다. 우리의 분석 결과에 따르면, Qwen2.5는 강력한 수학적 추론 성능을 달성하지만 대규모 웹 코퍼스에서 이루어진 사전 학습으로 인해 인기 있는 벤치마크에서 데이터 오염에 취약합니다. 따라서 이러한 벤치마크에서 도출된 결과는 불신뢰할 수 있습니다. 이 문제를 해결하기 위해 우리는 임의 길이와 난이도의 완전히 합성된 산술 문제를 생성하는 생성기를 소개하며, 이를 RandomCalculation이라는 깨끗한 데이터셋으로 제공합니다. 이 누설되지 않은 데이터셋들을 사용하여 우리는 정확한 보상 신호만이 지속적으로 성능을 개선한다는 것을 증명하였으며, 노이즈나 잘못된 신호들은 그렇지 않다는 것을 확인하였습니다. 우리는 다양한 모델 가족들 사이에서도 오염되지 않은 벤치마크를 통해 RL 방법들을 평가해야 한다고 주장하며, 이를 통해 신뢰할 수 있는 결론을 도출할 수 있다고 믿습니다.