Command Palette
Search for a command to run...
Yuan Liu Zhongyin Zhao Le Tian Haicheng Wang Xubing Ye et al

초록
고품질의 레이블링 데이터는 테이블, 수식, 다중 열 텍스트와 같은 복잡한 형식을 가진 도메인에서 정확한 문서 변환 모델을 훈련시키는 데 필수적이다. 그러나 수동 레이블링은 비용과 시간이 많이 들며, 기존 모델을 활용한 자동 레이블링은 이러한 복잡한 시나리오를 처리하는 데 정확도가 부족한 경우가 많다. 이에 따라 교사 모델의 출력을 병합하여 학습하는 스타디언트 모델 훈련 방식은 실제 응용에서 성능에 상당한 제한을 받을 수 있다. 본 논문에서는 다양한 문서 형식과 레이아웃을 처리할 수 있는 고품질 문서 추출 데이터셋과 모델을 구축하기 위한 완전 자동화된, 병합(free distillation) 기반의 프레임워크를 제안한다. 이 프레임워크는 두 단계로 구성된다. 첫 번째 단계에서는 대규모이고 다양한 합성 데이터를 생성하는 방법을 제안하여, 모델이 통일된 형식으로 핵심 요소를 추출할 수 있도록 하며, 초기 성능이 뛰어난 상태로 학습할 수 있도록 한다. 두 번째 단계에서는 합성 데이터로 사전 훈련된 모델을 실제 문서에 적응시키기 위한 자기 개선(self-improvement) 기법을 제시한다. 구체적으로, 미세조정된 모델을 활용해 실제 문서에 레이블을 붙인 후, 레이블 품질을 검증하기 위한 일련의 필터링 전략을 적용하고, 검증된 데이터셋으로 다시 모델을 훈련한다. 이 과정을 반복함으로써 모델의 변환 능력과 생성된 데이터의 품질을 점진적으로 향상시킬 수 있다. 이를 통해 공개된 POINTS-1.5 모델을 기반으로 POINTS-Reader 모델을 훈련하였으며, 이는 크기나 그 이상인 많은 기존 공개 및 비공개 모델을 능가하는 성능을 보였다. 본 모델은 다음 URL에서 공개된다: https://example.com.