HyperAI초신경
Back to Headlines

메타와 뉴욕대, 대형 언어모델의 효율적 정렬 방법 발표

9일 전

메타와 NYU가 개발한 새로운 AI 기법은 대형 언어 모델(LLM)의 인류 중심 조정을 위해 준온라인 강화 학습 방법을 활용하여 성능을 향상시키고 있다. 이 방법은 모델이 인간의 피드백이나 작업 기반 정확성을 바탕으로 결정을 내릴 수 있도록 하여, 사용자 기대치에 더 가까워지게 만든다. 이를 통해 지시 기반 애플리케이션이나 정밀한 수학적 작업에 더욱 적합한 모델을 만들어낼 수 있다. LLM 조정의 어려움 LLM의 조정 과정에서 가장 큰 난관은 효과적인 훈련 방법을 선택하는 것이다. 훈련 방법은 오프라인과 온라인 접근 방식으로 나뉘는데, 각각 고유한 문제점을 가지고 있다. 오프라인 방법은 정적이고 미리 생성된 데이터에 의존하여 실시간 적응이 어려워 성능 제한이 있다. 반면, 온라인 방법은 새로운 상호작용마다 계속 업데이트되기 때문에 더 많은 컴퓨팅 자원을 필요로 한다. 또한, 수학적(확인 가능) 작업과 개방형(확인 불가능) 작업 모두에서 모델이 잘 수행되도록 하는 것은 이 선택을 더욱 복잡하게 만든다. 기존 조정 알고리즘: DPO와 GRPO 기존에는 Direct Preference Optimization(DPO)와 Group Relative Policy Optimization(GRPO) 같은 도구들이 주로 사용되었다. DPO는 오프라인에서 작동하며 선호도 기반 데이터 쌍을 처리하도록 설계되어 있다. 이 방법은 간단하고 데이터 효율성이 높지만 온라인 방법에 비해 적응성이 부족하다. GRPO는 Proximal Policy Optimization(PPO) 알고리즘을 기반으로 하며, 출력 그룹을 비교하여 상대적인 장점을 계산한다. GRPO는 실시간으로 적응하여 동적인 보상 시스템에 적합하지만, 온-정책(on-policy) 특성으로 인해 컴퓨팅 부담이 증가하고 실험하기 어려운 단점이 있다. LLM 조정을 위한 균형인 준온라인 방법 메타와 NYU 연구팀은 이러한 한계를 극복하기 위해 준온라인 훈련 설정을 탐구했다. 이 기법은 모델의 생성과 훈련 컴포넌트가 얼마나 자주 동기화되는지를 조절함으로써, 모든 훈련 단계에서 업데이트하는 오프라인 방법과 전혀 업데이트하지 않는 온라인 방법 사이의 균형을 맞춘다. 연구팀은 이 접근 방식이 훈련 시간을 줄이고 모델의 적응성을 유지할 수 있다는 것을 입증했다. 모듈식 구조는 또한 작업별 보상 모델을 유연하게 적용할 수 있게 해준다. 지시사항 준수와 수학적 추론 연구 방법론은 Llama-3.1-8B-Instruct 모델을 두 가지 작업으로 세부 훈련시키는 것을 포함한다. 첫 번째는 개방형 지시사항 준수 작업이고, 두 번째는 수학 문제 해결 작업이다. 확인 불가능 작업의 경우 WildChat-1M 데이터셋에서 사용자 프롬프트를 샘플링하여 Athene-RM-8B 보상 모델로 평가했다. 확인 가능한 작업의 경우 NuminaMath 데이터셋과 Math-Verify 툴킷을 사용하여 생성된 답변이 예상된 출력과 일치하는지를 확인했다. 훈련 실험은 32개의 NVIDIA H200 GPU를 사용하여 훈련을 진행했으며, 8개의 GPU를 사용하여 추론을 수행했다. 다양한 설정으로 오프라인, 준온라인, 온라인 동기화 간격을 비교했다. 성능 향상 성능 차이는 명확히 관찰되었다. Math500 벤치마크에서 오프라인 DPO는 53.7%의 정확도를 보였으나, 준온라인 DPO(s = 100)는 58.9%의 정확도를 달성했다. 온라인 DPO와 GRPO는 각각 58.7%와 58.1%의 유사한 결과를 보였다. NuminaMath 벤치마크에서도 비슷한 경향이 나타났는데, 오프라인 DPO는 36.4%의 정확도를 보였으나, 준온라인 변형(s = 10)은 이를 39.4%로 끌어올렸다. 성능 향상은 수학 작업에 국한되지 않았다. AlpacaEval 2.0과 Arena-Hard 벤치마크를 통해 확인 불가능 작업을 평가했을 때, 혼합 보상 유형으로 훈련된 모델이 일관되게 더 좋은 성적을 거두었다. 여러 작업 유형에서 효과적으로 일반화되었음을 보여주는 결과다. 유연하고 확장 가능한 강화 학습 접근 방식 이 연구는 LLM의 세부 훈련이 반드시 오프라인 또는 온라인 설정에 엄격히 따르지 않아도 된다는 점을 입증한다. 유연한 동기화 방식을 도입함으로써, 연구팀은 훈련 효율성을 크게 높이면서도 성능을 유지하거나 향상시킬 수 있었다. 보상 유형과 훈련 동기화 빈도를 신중하게 조절하면, 높은 컴퓨팅 비용 없이 다양한 작업 유형에서 우수한 성능을 발휘할 수 있는 모델을 만들 수 있다는 점이 분명히 드러났다. 업계 전문가들은 메타와 NYU의 연구가 LLM의 실용성을 크게 높일 수 있는 중요한 발전이라고 평가한다. 이 기술은 미래의 AI 모델 개발에서 핵심적인 역할을 할 것으로 기대되며, 특히 컴퓨팅 자원이 제한적인 환경에서 유용할 것으로 보인다. 메타와 NYU는 세계 최고의 연구 기관이며, 이번 연구는 AI 분야의 혁신을 선도하는 그들의 노력의 일부분이다.

Related Links