2달 전

DocLayout-YOLO: 다양한 합성 데이터와 전역에서 지역으로의 적응적 인식을 통한 문서 레이아웃 분석 향상

Zhiyuan Zhao, Hengrui Kang, Bin Wang, Conghui He
DocLayout-YOLO: 다양한 합성 데이터와 전역에서 지역으로의 적응적 인식을 통한 문서 레이아웃 분석 향상
초록

문서 레이아웃 분석은 실제 문서 이해 시스템에서 필수적이지만, 속도와 정확성 사이의 어려운 균형을 맞추는 문제에 직면해 있습니다. 다중 모달 방법은 텍스트와 시각적 특성을 모두 활용하여 더 높은 정확성을 달성하지만, 상당한 지연 시간을 겪습니다. 반면 단일 모달 방법은 시각적 특성만을 사용하여 처리 속도를 높이지만 정확성이 희생됩니다. 이 문제를 해결하기 위해, 우리는 문서 전용 최적화를 통해 정확성을 향상시키면서 속도의 장점을 유지하는 새로운 접근 방식인 DocLayout-YOLO를 소개합니다.강건한 문서 사전 학습을 위해, 우리는 문서 합성을 2차원 바이너리 패킹 문제로 설정하는 Mesh-candidate BestFit 알고리즘을 제안합니다. 이를 통해 대규모이고 다양한 DocSynth-300K 데이터셋을 생성합니다. DocSynth-300K 데이터셋에서의 사전 학습은 다양한 문서 유형에 걸쳐 미세 조정 성능을 크게 개선합니다. 모델 최적화 측면에서는, 다중 스케일 변동성을 더 잘 처리할 수 있는 Global-to-Local Controllable Receptive Module(글로벌-로컬 제어 가능한 수용 모듈)를 제안합니다.또한, 다양한 문서 유형에서의 성능 검증을 위해 복잡하고 도전적인 벤치마크인 DocStructBench를 소개합니다. 후속 데이터셋에 대한 광범위한 실험 결과는 DocLayout-YOLO가 속도와 정확성 모두에서 우수함을 입증합니다. 코드, 데이터 및 모델은 https://github.com/opendatalab/DocLayout-YOLO에서 제공됩니다.

DocLayout-YOLO: 다양한 합성 데이터와 전역에서 지역으로의 적응적 인식을 통한 문서 레이아웃 분석 향상 | 최신 연구 논문 | HyperAI초신경