HyperAI초신경
Back to Headlines

AbstRaL, 강화 학습으로 LLM 추상적 사고 능력 향상

3일 전

최근 연구에 따르면, 특히 작은 규모의 대형 언어 모델(LLM)들은 견고한 추론 능력에 어려움을 겪는 것으로 나타났다. 이 모델들은 익숙한 질문에서는 잘 수행하지만, 이름이나 숫자가 바뀌거나 관련성은 있지만 중요한 정보가 아닌 것이 추가되는 등의 약간의 변경이 있을 때 성능이 저하된다. 이를 빈도 외(Out-of-Distribution, OOD) 일반화 문제라고 하며, 간단한 수학 문제에서도 큰 정확도 하락을 초래한다. 이러한 약점을 해결하기 위한 한 가지 유망한 방법은 추론 문제의 다양한 변형을 생성하여 모델들이 표면적인 세부 사항이 아닌 근본적인 논리에 집중하도록 학습시키는 것이다. 이 방법은 더 일반적이고 신뢰할 수 있는 AI 시스템 개발에 중요하다. 研究人员指出,尽管LLM展示了令人印象深刻的推理能力,但在面对分布变化时,如措辞、数值或引入干扰信息的变化,它们经常表现不佳。这一弱点在逻辑、数学和常识推理的基准测试中尤为明显。以前的解决方案依赖于数据增强,通过暴露更多样化的输入来提高模型的鲁棒性,但这种方法增加了计算需求。此外,研究者还探索了思维抽象和抽象链等格式来教授抽象推理,而思维链和思想树等规划技术则有助于逐步解决问题。强化学习和基于偏好的方法为超越模式记忆的推理技能发展提供了额外支持。 Apple과 EPFL 연구진은 LLM이 표면적인 세부 사항을 기억하는 대신 추상적인 추론 패턴을 이해하도록 가르치는 AbstRaL이라는 방법을 제안했다. 많은 변형된 훈련 예제를 생성하는 것처럼 계산적으로 비용이 많이 드는 대신, AbstRaL은 강화 학습을 사용하여 LLM이 추론 문제의 근본적인 구조를 학습하도록 돕는다. 이 방법은 추상적인 패턴을 기호 도구와 연결하여 더욱 신뢰할 수 있는 문제 해결을 가능하게 한다. GSM 벤치마크에서 테스트된 결과, AbstRaL은 입력 변경이나 방해 정보가 포함된 문제에서도 LLM의 성능을 크게 향상시키는 것으로 나타났으며, 특히 감독 학습으로만 훈련된 모델보다 더 일관되고 맥락에 의존하지 않는 추론을 촉진한다. AbstRaL은 LLM이 표면 패턴에 의존하지 않고 추상적으로 추론할 수 있도록 설계된 4단계 프레임워크이다. 첫 번째 단계에서는 질문의 핵심 변수를 심볼릭 플레이스홀더로 교체한다. 두 번째 단계에서는 특별히 제작된 데이터(GranulAR)를 사용하여 이 추상 심볼을 이용해 단계별로 추론하는 법을 배운다. 세 번째 단계에서는 심볼릭 답변에서 일반적인 추론 구조(추상화)를 추출한다. 마지막 단계에서는 이 추상화를 원래 값과 함께 사용하여 올바른 답변을 계산한다. 정확성과 심볼릭 유사성을 각각 평가하는 두 가지 보상으로 강화 학습을 진행하여 모델이 더욱 정확하고 맥락에 의존하지 않는 추론 패턴을 생성할 수 있도록 한다. 研究人员使用数学推理任务评估了AbstRaL,包括Llama-3和Qwen2等模型,并使用名为GranulAR的数据集将数学问题重写为抽象符号形式。这有助于模型关注结构而非表面细节。他们通过改变GSM8K问题中的数字、名称和措辞来测试其鲁棒性。与标准的思维链提示等基线相比,AbstRaL显示出更强的一致性和更少的准确性下降。特别是在较小规模的模型上,它在重述输入方面表现出更高的可靠性。结果表明,教授模型进行抽象思考可以使其更具适应性,减少对记忆模式的依赖。 결론적으로, AbstRaL은 LLM이 문제의 표면적인 변화에 더 잘 대처하도록 추상적 추론 능력을 강화하는 방법이다. 전통적인 미세 조정이나 데이터 증강과 달리, AbstRaL은 소크라테스식 사고 체인과 상세 추상화를 혼합한 GranulAR 논리를 사용하여 강화 학습을 진행한다. 이 접근법은 모델이 표면적인 방해 요소를 제거하고 기호 도구와 더 잘 연결되도록 돕는다. 어려운 GSM8K 변동 벤치마크에서 테스트한 결과, AbstRaL은 특히 작은 모델에서 분포 변화에 따른 성능 저하를大幅减少,显示学习抽象比仅依靠直接监督更能有效提高推理鲁棒性。 이 연구는 AbstRaL의 적용이 LLM의 추론 능력을 크게 향상시킬 수 있음을 보여주며, 특히 작은 모델에서 분포 변화에 대한 성능 저하를 크게 줄이는 것으로 나타났다. 이는 기존의 감독 학습 방법보다 추론의 견고성을 더욱 효과적으로 향상시키는 방법임을 입증한다. 이 연구의 성공은 AI 모델의 추론 능력을 근본적으로 개선하는 데 중요한 단계를 제공하며, 특히 데이터 증강이나 직접적인 감독 학습보다 비용 효율적이면서도 성능을 크게 향상시킨다는 점에서 주목할 만하다. AbstRaL의 개발팀은 이러한 접근법이 앞으로의 AI 연구와 개발에 큰 영향을 미칠 것으로 기대하고 있다. Apple과 EPFL의 연구팀은 AI 모델의 추론 능력을 향상시키기 위한 혁신적인 방법론을 제시하는데, AbstRaL은 특히 작은 모델에서 큰 성능 향상을 가져오는 강화 학습 기반 방법이다. 이 연구는 AI 시스템의 더 일반적이고 신뢰할 수 있는 추론 능력을 개발하는 데 있어 중요한 진전을 이룬 것으로 평가받고 있다.

Related Links