ASTRO, 새로운 후처리 기술로 라마 3의 추론 능력 16~20% 향상
라이아姆 3의 추론 능력을 구조 변경 없이 향상시킬 수 있을까요? ASTRO가 벤치마크 성능을 16%에서 20%까지 끌어올렸습니다. 대형 언어 모델(LLM)의 추론 능력을 구조 변경 없이 개선하는 것은 AI 정렬과 활용성을 발전시키는 핵심 과제입니다. 메타 AI와 워싱턴대학교 연구진은 라이아ム-3.1-70B-인스트럭트의 추론 능력을 강화하기 위해 새로운 포스트 트레이닝 프레임워크인 ASTRO(자기 회귀 탐색 가르침 추론기)를 소개했습니다. ASTRO는 인간 문제 해결과 전통적인 기호 검색 알고리즘에서 자주 발견되는 문맥 내 검색, 자기 반성, 그리고 역추적 기능을 모델에 가르치는 것이 특징입니다. 이 방법으로 ASTRO는 여러 경쟁력 있는 벤치마크에서 라이아ム 3의 수학 성능을 크게 향상시켰습니다. 검색 안내된 추론 과정 생성 ASTRO의 접근 방식은 수학 문제 해결 경로에 대한 몬테카를로 트리 검색(MCTS)으로 시작됩니다. 이 검색은 올바른 경로와 잘못된 경로 모두를 탐색합니다. 주요 혁신은 절차 클로닝입니다. 전체 검색 나무가 긴 추론 과정(CoT)으로 선형화되며, 여기서 실패와 복구는 자기 반성과 역추적을 통해 자연스럽게 인코딩됩니다. 이러한 선형화된 경로는 자연어로 다시 작성되어 감독 학습(SFT)의 기반이 됩니다. 이 결과, 모델은 단순히 단계별로 문제를 해결하는 것이 아니라 경로를 재평가하고 필요할 때 자기 평가를 통해 중간 추론 오류를 수정합니다. 예를 들어, 내부 신뢰도가 떨어지면 "방정식을 설정한 부분으로 돌아가자"라는 문구를 삽입할 수 있습니다. 감독 학습: 검색 사전 정보 주입 ASTRO는 MATH, AMC/AIME, 그리고 AoPS 스타일 데이터셋에서 36.1만 개의 큐레이션된 CoT 솔루션으로 라이아ム-3.1-70B-인스트럭트를 세밀 조정(SFT)합니다. ASTRO-SFT로 훈련된 모델은 다음과 같은 성능을 달성합니다: MATH 벤치마크: 65.2% AMC 10: 57.9% 이 성적은 검색 사전 정보 없이 훈련된 기준 모델이나 SPOC/Step-KTO 변형 모델보다 경쟁력이 있거나 더 우수합니다. 중요한 점은 강화 학습 없이도 SFT만으로도 검색 구조화된 추론 데이터를 노출함으로써 성능 향상을 가져올 수 있다는 것입니다. 검색 인식 초기화를 통한 강화 학습 ASTRO는 SFT 체크포인트에서 초기화하여 수정된 그룹 상대 정책 최적화(GRPO)를 사용한 RL 루프를 실행합니다. 표준 선호 기반 RL과 달리 ASTRO는 검증 가능한 보상 신호(+1: 올바름, -1: 잘못됨)를 8,700개의 중간 난이도 프롬프트에 적용합니다. 훈련 중 모델의 CoT 생성이 길어지면서—약 1.8K 토큰에서 약 6K 토큰으로—더 깊은 내부 탐색을 수행합니다. 결과적으로 ASTRO-RL 모델은 다음과 같은 성능을 달성합니다: MATH 벤치마크: 72.5% AMC 10: 64.8% 이 결과는 더 많은 매개변수를 가진 모델들과 비교해도 비슷하거나 더 우수하며, ASTRO의 검색 인식 초기화의 중요성을 확인합니다. 역추적 행동이 성공과 상관관계 눈에 띄는 경험적 관찰은 역추적 빈도와 성능 사이의 긍정적인 상관관계입니다. 훈련이 진행됨에 따라 ASTRO-RL은 더 많은 자기 수정 행동과 깊은 탐색을 보입니다. 벤치마크에서 피어슨 상관계수는 0.8을 초과하여, 자기 반성과 역추적이 단순히 외형적인 행동이 아니라 더 나은 정확도와 연관되어 있다는 사실을 나타냅니다. 비교적 통찰력과 광범위한 영향 ASTRO와 검색 사전 정보 없이 직접 CoT 솔루션으로 훈련된 모델들을 비교한 제어 실험은 동일한 문제 집합과 검색 나무로 훈련되었음에도 불구하고 ASTRO가 일관되게 우수한 성능을 보였다는 것을 밝혔습니다. 예를 들어, ASTRO-RL은 Direct-RL을 다음과 같이 능가합니다: MATH 벤치마크: 72.5% vs 67.8% AMC 10: 64.8% vs 59.2% 또한, ASTRO의 출력은 추론 단계를 노드로, 전환, 반성, 그리고 수정을 엣지로 나타내는 방향 그래프로 시각화될 수 있어 해석성을 높여줍니다. 결론 ASTRO는 라이아ム 3와 같은 LLM들이 더 큰 모델이나 더 긴 사전 훈련 없이 원칙적인 포스트 트레이닝 기법을 통해 더 효과적으로 추론할 수 있음을 입증했습니다. 자연어를 이용해 검색 알고리즘을 모방함으로써 ASTRO는 모델이 답하기 전에 생각하고, 자신의 단계에 의문을 제기하며, 추론 중간에 스스로를 수정하도록 합니다. 이 프레임워크는 검색 기반 행동을 통해 인간처럼 추론하는 오픈 LLM의 세밀 조정에 새로운 기준을 제시합니다. 이 연구는 메타 AI와 워싱턴대학교 연구진의 노력으로 이루어졌으며, 이를 통해 AI의 추론 능력 향상을 위한 새로운 방향을 제시하고 있습니다. ASTRO의 성공은 포스트 트레이닝 기법의 잠재력을 확인해주며, 앞으로의 AI 발전에 중요한 역할을 할 것으로 기대됩니다.