Command Palette
Search for a command to run...
최소한의 인간 감독 하에 안내되는 자기진화형 LLMs
최소한의 인간 감독 하에 안내되는 자기진화형 LLMs
Wenhao Yu Zhenwen Liang Chengsong Huang Kishan Panaganti Tianqing Fang Haitao Mi Dong Yu
초록
인공지능의 자가진화는 모델이 스스로 학습 경험에서 지식을 획득하고 정제하며 내면화하는 방식을 통해 슈퍼지능에 이르는 길로 오랫동안 상상되어 왔다. 그러나 실질적인 적용에서는 지도 없이 운영되는 자가진화 시스템은 학습 과정이 진행됨에 따라 빠르게 성능 정체에 빠지거나 오히려 성능 저하를 겪는 경우가 많다. 이러한 실패는 개념 이동(concept drift), 다양성 붕괴(diversity collapse), 오진화(mis-evolution) 등의 문제에서 비롯되며, 모델이 자기 편향을 강화하고 낮은 엔트로피의 행동으로 수렴하기 때문이다. 인간의 개입에 의존도를 최소화하면서도 모델이 안정적이고 통제 가능한 방식으로 자가진화할 수 있도록 하기 위해, 본 연구는 ‘R-Few’라는 가이드된 자가대결(Challenger-Solver) 프레임워크를 제안한다. 이 프레임워크는 맥락 기반의 가벼운 인간 지도(인-컨텍스트 기반 지도)와 혼합 학습(mixed training)을 통해 경량의 인간 감시를 통합한다. 각 반복 단계에서, Challenger는 소량의 인간 레이블 데이터를 샘플링하여 합성 질문 생성을 안내하고, Solver는 온라인에서 어려움 기반의 커리큘럼 아래 인간 데이터와 합성 데이터를 함께 학습한다. 수학 및 일반 추론 벤치마크에서 R-Few는 일관되고 반복적인 성능 향상을 달성하였다. 예를 들어, Qwen3-8B-Base는 R-Zero 대비 수학 과제에서 +3.0점 향상하며, 인간 데이터를 20배 더 많이 사용한 General-Reasoner와 비슷한 성능을 달성하였다. 제거 실험(ablation studies)은 지도된 Challenger 학습과 커리큘럼 기반 Solver 학습 간의 보완적 기여를 확인하였으며, 추가 분석을 통해 R-Few가 개념 이동을 완화함으로써 더 안정적이고 통제 가능한 공진화 역학을 유도함을 입증하였다.