16일 전

상상, 탐색 및 비판을 통한 LLM의 자기 개선 지향

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
상상, 탐색 및 비판을 통한 LLM의 자기 개선 지향
초록

다양한 작업에서 뛰어난 능력을 보이는 대규모 언어 모델(Large Language Models, LLMs)은 여전히 복잡한 추론과 계획을 수반하는 상황에서는 어려움을 겪고 있다. 최근 연구에서는 고도화된 프롬프트 기술과 고품질 데이터를 활용한 미세조정(fine-tuning)이 LLM의 추론 능력을 강화하는 데 필수적임을 제안하였다. 그러나 이러한 접근 방식은 데이터의 가용성과 품질에 본질적으로 제약을 받는다. 이러한 문제를 고려하여, 자가 보정(self-correction)과 자가 학습(self-learning)이 실현 가능한 해결책으로 부상하고 있다. 이는 LLM이 자체 평가한 보상(reward)을 기반으로 출력을 개선하고 학습할 수 있는 전략을 활용한다. 그러나 LLM이 복잡한 추론 및 계획 작업에서 자체적으로 응답을 개선하는 데 있어 그 효과성은 여전히 의문의 여지가 있다. 본 논문에서는 LLM의 자가 개선을 위한 AlphaLLM을 제안한다. AlphaLLM은 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 LLM과 통합하여 추가적인 주석(annotation) 없이 LLM의 능력을 향상시키는 자기 개선 루프를 구축한다. AlphaGo의 성공 사례를 영감으로 삼아, AlphaLLM은 언어 작업의 데이터 부족, 방대한 탐색 공간, 언어 작업에서의 피드백의 주관성이라는 고유한 도전 과제를 해결한다. AlphaLLM은 프롬프트 합성 모듈, 언어 작업에 적합하게 설계된 효율적인 MCTS 방법, 그리고 정밀한 피드백을 제공하는 세 가지 비평가 모델(critic models)로 구성된다. 수학적 추론 작업에서의 실험 결과는 AlphaLLM이 추가 주석 없이 LLM의 성능을 크게 향상시킴을 보여주며, LLM의 자기 개선 가능성을 입증한다.

상상, 탐색 및 비판을 통한 LLM의 자기 개선 지향 | 최신 연구 논문 | HyperAI초신경