HyperAI초신경
Back to Headlines

과학자들, AI 모델의 반성능력을 강화하는 베이지안 적응 학습 방법 개발

15일 전

대형 모델의 반성은 효과적인 탐색인가, 아니면 형식주의인가? 과학자들이 베이지안 적응 강화 학습(BARL, Bayes-Adaptive Reinforcement Learning) 프레임워크를 개발하여 이 문제에 대한 체계적인 답을 제시했다. 미국 노스웨스턴 대학교와 구글, 구글 딥마인드 연구팀은 최근 협력 연구를 통해 대형 모델의 반성이 어떻게 작동하고 언제 어떤 방식으로 이루어져야 하는지를 처음으로 이론적으로 밝혔다. 이 프레임워크는 모델이 언제 반성을 하고, 어떻게 반성을 진행하며, 왜 반성이 필요한지를 명확하게 지도하는 직관적인 의사결정 메커니즘을 제공한다. BARL 알고리즘의 주요 혁신은 세 가지 측면에서 나타난다. 첫째, 선형화된 N 중 최선(N 중 가장 좋은 것) 메커니즘을 사용하여 여러 후보 전략을 통합하고 비효율적인 방법들을 점차 배제한다. 둘째, 대형 모델의 추론을 베이지안 적응 마르코프 결정 과정(MDP, Markov Decision Process)으로 모델링하여 불확실한 환경에서 '가설 사후 분포'를 동적으로 유지한다. 셋째, '반성-검증'의 완전한 폐쇄 루프 시스템을 구축하여 수학 문제 해결과 같은 인지적 탐색을 가능하게 한다. 예를 들어, BARL은 수학 문제를 해결할 때 다양한 접근 방법의 후보 전략을 생성하고, 환경 피드백(예: 단계의 정확성)에 따라 가설 분포를 실시간으로 업데이트하여 최적의 해법으로 수렴한다. 이 과정은 새로운 단서를 얻으면서 잘못된 추론을 배제해가는 탐정의 사건 해결 과정과 유사하다. 수학 추론 작업에서 BARL은 여러 기준 테스트에서 기존의 MDP 알고리즘보다 우수한 성능을 보였다. 예를 들어, Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, R1-Distill-Llama-8B 등 다양한 대형 모델을 사용한 실험에서, BARL은 토큰 효율성이 크게 향상되었다. 진행 보상 기반 강력한 기준선보다 39%, GRPO 알고리즘보다 50%, Qwen2.5-Math-1.5B 기본 모델보다 90% 이상의 불필요한 계산을 줄였다. 이 연구는 AI 시스템의 의사결정 최적화에 새로운 길을 열었다. 앞으로의 AI 어시스턴트는 인간 전문가처럼 문제 해결 시 잘못된 접근법을 빠르게 배제하고, 코드 작성 시 테스트 피드백에 따라 동적으로 코드를 조정할 수 있을 것으로 예상된다. 이러한 인간처럼 '반성하는 지혜'는 바로 BARL 프레임워크에서 비롯된다. 이 연구는 반성의 효율성 문제를 해결하는 데 그치지 않고, 지속적인 자기 최적화 능력을 가진 AI 시스템을 구축하는 방법론적 기초를 제공한다. 연구팀은 대형 모델이 간단한 문제를 처리할 때 많은 토큰을 사용하여 '형식적 반성'을 수행하지만, 이는 항상 정확성 향상으로 이어지지는 않는다는 사실에 주목했다. 이는 강화 학습 영역에서 더 깊은 '샘플 딜레마'와 연관되어 있다. 최근 3월 이후 학술계에서는 강화 학습 분야에서의 진전이 계속되고 있으며, 소량의 샘플로 성능을 향상시키는 여러 모델이 등장했다. 그러나 이들 모델은 실제로 일반화 능력을 획득한 것인지, 아니면 훈련 세트의 특정 문제를 해결하는 방법을 배운 것뿐인지에 대한 의문이 제기되었다. 이러한 발견들은 연구팀이 모델이 한정된 훈련 세트를 벗어나 일반화 능력을 획득하도록 돕는 방법에 초점을 맞추게 만들었다. 이 프레임워크의 핵심 혁신은 다중 전략 통합 메커니즘이다. 모델이 추론 과정에서 새로운 증거를 수집하면 현재 전략의 유효성을 동적으로 평가하고 필요할 경우 더 나은 해결책으로 자동 전환할 수 있다. 이 설계는 형식적 반성의 효율성 문제를 해결하는 동시에 모델이 미지의 상황에서도 자가 조정할 수 있는 능력을 부여한다. 전통적인 마르코프 RL은 훈련 시 시도와 오류를 통해 올바른 경로를 기억하고, 테스트 시에는 '답을 암기'하는 방식으로 작동한다. 이로 인해 중간 추론 과정의 출력이 점차 억제되어 반성 행동이 자연스럽게 발생하기 어렵다. 연구팀은 이에 대한 대조 실험을 통해 기반 모델과 GRPO를 짧은 시간 동안 훈련시키면서 중간 추론 과정의 출력이 억제되는 현상을 확인했다. 이는 반성 행동이 이론적으로는 인지적 이점을 제공하지만, 실제 테스트에서는 효과적이지 않은 이유를 설명한다. BARL은 이 문제를 해결하기 위해 '무효성 판단' 이론을 도입하여 반성의 트리거 조건을 설정한다. 예를 들어, 모델이 전략 A가 최적이라고 예측했지만 실제 실행 결과가 예상과 다르다면 A를 '비최적 전략'으로 판단하고 배제한다. 네 개의 후보 전략 A/B/C/D 중 하나의 피드백 충돌로 A를 배제하고 B/C/D를 유지할 수 있다. 이 메커니즘은 모델의 인식과 환경 증거 사이의 충돌을 자동으로 감지하여 전략 재구성 프로그램을 트리거한다. 이 설계는 전통적인 방법이 고정된 사전 훈련 전략에 의존하고 실시간 피드백을 무시하는 한계를 극복하는 데 중점을 두고 있다. 이를 통해 BARL은 실제 상황에서 더 효과적으로 동작할 수 있게 되었다. BARL은 특히 수학 추론과 같은 복잡한 인지적 작업에서 뛰어난 성능을 발휘한다. 수학 문제는 정답이 명확하고 피드백이 즉각적이라는 특성 때문에 반성 메커니즘을 검증하기에 이상적인 장면이다. 시행 단계에서는 GRPO와 같은 전통적인 MDP 알고리즘이 복잡성을 무시하는 반면, BARL은 개선된 강화 학습 프레임워크를 통해 지능적인 탐색을 가능하게 한다. 이는 '정밀 탐색'이 '무작위 시도오류'보다 더욱 실용적임을 입증한다. 구체적으로, 알고리즘은 작업의 복잡도에 따라 전략을 동적으로 조정한다. 간단한 작업에서는 모델 내부 믿음이 이미 좋은 결과를 생성할 수 있는 경우 반성을 하지 않지만, 복잡한 작업에서는 여러 라운드의 결과를 통합하여 탐색 과정을 최적화한다. 현재 연구는 주로 강화 학습의 후 훈련 단계에 초점을 맞추고 있으며, 추후에는 사전 훈련 단계로 확장될 예정이다. 연구팀은 BARL 알고리즘을 더 큰 데이터셋과 모델에서 검증하기 위해 실험 규모를 확대하고 있다. 이 과정에서 기계 학습 알고리즘 자체뿐만 아니라 기반 모델의 기본 능력도 중요하다는 사실을 발견했다. 따라서 다른 중요한 연구 방향은 BARL과 함께 사용할 수 있는 사전 훈련/재훈련 알고리즘 개발이다. BARL은 프로그래밍과 멀티 에이전트 협업 등 다양한 분야에서 잠재력을 보이고 있다. 코드 생성 시나리오에서는 단위 테스트를 통해 코드 유효성을 동적으로 검증하는 '단계별 보상' 설계가 필요하며, 이는 작은 코드 작업에서 초기 성공을 거두었다. 멀티 에이전트 협업에서는 서로 다른 에이전트들의 가설 분포를 공동으로 업데이트하는 새로운 도전 과제가 있다. 이를 해결하기 위한 연구는 추후 주요 방향이 될 것이다. 연구팀은 또한 게임 전략 최적화와 같은 '이진 피드백' 영역에도 BARL을 적용하여, 비연속 보상 환경에서 고유한 이점을 찾아낼 계획이다. 노스웨스턴 대학의 박사 과정 학생인 장شن아오(張申傲)는 중국 화남공과대학 컴퓨터 공학과를 졸업하고, 초기에는 대화 시스템 연구에 집중했다. 대학 3학년 때 미국 캘리포니아 대학 버클리分校의 교환학생으로서 세르게이 레빈(Sergey Levine) 교수의 인공지능 개론 수업을 들으면서 강화 학습 분야에 깊이 들어갔다. "레빈 교수님의 체계적인 가르침과 선구적인 연구 전망, 특히 강화 학습의 수학적 원리를 깊이 이해할 수 있는 기회는 제 연구 방향을 확립하는 중요한 계기가 되었습니다."라고 그는 회고했다. 硕士研究 과정에서는 미국 조지아 공과대학에서 강화 학습 알고리즘에 대한 체계적인 훈련을 받았으며, 현재는 노스웨스턴 대학의 왕자오란(汪昭然) 교수 연구팀에서 박사 과정을 진행 중이다. 그의 연구는 샘플 효율적인 강화 학습에 초점을 맞추고 있으며, 추론 작업의 인지 모델링, 에이전트 작업의 자동 의사결정 최적화, AI 정렬 문제의 메커니즘 설계 등을 포함한다. 이 연구 프레임워크는 그의 학문적 계승과 딥마인드(DeepMind)의 일련의 획기적인 연구로부터 영감을 받았다. 알파고(AlphaGo)에서 시작된 패러다임 혁신부터 무제로(MuZero)까지, 이들 연구는 그에게 '에이전트와 환경의 상호작용 본질'에 대한 깊은 이해를 제공해주었다. 이는 그의 초기 연구에서 모델 기반 강화 학습 프레임워크의 탐구로 이어졌으며, 몬테카를로 트리 검색(Monte Carlo Tree Search) 등의 계획 알고리즘과 신경망 세계 모델을 결합하여 전통적인 동적 프로그래밍과 현대 심층 학습을 융합한 혼합 의사결정 시스템을 구축했다. 그의 연구는 불연속 보상 환경에서 모델의 샘플 활용 효율성을 크게 높이는 데 기여했으며, 강화 학습에서의 '탐색-이용' 딜레마 해결에 새로운 아이디어를 제시했다. 학술 연구 외에도, 장شن아오는 구글, 마이크로소프트, 바이트댄스, 텐센트 AI 연구소 등 유명 기업에서 인턴십을 수행하면서 산업계 경험을 쌓았다. "학계의 이론적 추구와 달리, 산업 응용은 제약 조건 하에서 최적해를 찾는 데 중점을 두는데, 이는 저에게 제 research work을 first principles에서 출발하도록 하는 중요한 변화를 가져왔습니다."라고 그는 말했다. scaling laws의 제시와 대형 언어 모델과 강화 학습의 융합 혁신으로 인해, 일부 선두 기술 회사들은 제품화와 계산 효율성 증대에서 상당한 성과를 거두었다. 이는 장申傲의 개인적인 경력 계획에도 반영되어, 6월부터 애플사에서 새로 시작한 인턴십을 통해 학계와 산업계의 지식 협업 혁신을 계속해서 탐구하고 있다. 참조 자료: 1. https://arxiv.org/abs/2505.20561 2. 훈련 코드: https://github.com/shenao-zhang/BARL 3. https://arxiv.org/abs/2209.07676 운영/편집:何晨龙, 刘雅坤 이 연구는 AI 시스템의 의사결정 최적화에 획기적인 변화를 가져올 것으로 기대된다. BARL 프레임워크는 모델의 반성 능력을 효과적으로 제어하여, 다양한 인지적 작업에서 뛰어난 성능을 발휘할 수 있게 한다. 특히, 대형 언어 모델 시대에 '정밀 탐색'이 '무작위 시도오류'보다 더욱 중요함을 입증하였으며, 이는 미래 AI 개발의 중요한 방향을 제시한다.

Related Links