Command Palette
Search for a command to run...
Henrique Godoy

초록
이 논문은 문서 정보 추출에 특화된 70억 파라미터 규모의 언어 모델인 Extract-0을 제안하며, 이 모델은 수 개 차수 이상 더 큰 파라미터 수를 가진 모델들을 뛰어넘는 성능을 달성한다. Extract-0은 합성 데이터 생성, Low-Rank Adaptation(LoRA)를 활용한 지도 미세조정, 그리고 그룹 상대적 정책 최적화(GRPO)를 통한 강화학습이라는 새로운 조합 방식을 통해, 다양한 문서 추출 작업 1,000건으로 구성된 벤치마크에서 평균 보상 값 0.573을 기록하며, GPT-4.1(0.457), o3(0.464), GPT-4.1-2025(0.459)를 모두 상회하는 성능을 보였다. 학습 방법론은 다양한 문서 소스에서 280,128개의 학습 예제를 생성하는 메모리 보존형 합성 데이터 생성 파이프라인을 활용하며, 이후 파라미터 효율적인 미세조정을 통해 전체 모델 파라미터(76.6억) 중 단 0.53%에 해당하는 4,040만 개의 가중치만을 수정한다. 강화학습 단계에서는 정보 추출 작업에 내재된 모호성을 효과적으로 다루기 위해 새로운 의미적 유사도 기반 보상 함수를 도입하였다. 본 연구는 특정 작업에 특화된 최적화가 일반 목적 시스템을 능가하는 모델을 생성할 수 있으며, 이 과정에서 상당히 적은 계산 자원을 요구할 수 있음을 보여준다.