2달 전

PP-StructureV2: 더 강력한 문서 분석 시스템

Chenxia Li; Ruoyu Guo; Jun Zhou; Mengtao An; Yuning Du; Lingfeng Zhu; Yi Liu; Xiaoguang Hu; Dianhai Yu
PP-StructureV2: 더 강력한 문서 분석 시스템
초록

대량의 문서 데이터는 텍스트 정보가 없는 원시 이미지와 같은 비정형 형태로 존재합니다. 실용적인 문서 이미지 분석 시스템을 설계하는 것은 의미 있는 일이지만 도전적인 과제입니다. 이전 연구에서 우리는 지능형 문서 분석 시스템인 PP-Structure를 제안했습니다. 본 연구에서는 PP-Structure의 기능과 성능을 더욱 향상시키기 위해 두 개의 하위 시스템(레이아웃 정보 추출 및 주요 정보 추출)을 포함하는 PP-StructureV2를 제안합니다. 첫째, 이미지 방향 교정 모듈과 레이아웃 복원 모듈을 통합하여 시스템의 기능을 강화하였습니다. 둘째, PP-StructureV2에서 8개의 실용적 전략을 활용하여 더 나은 성능을 달성하였습니다.레이아웃 분석 모델에 대해, 우리는 모델 경량화를 위해 초경량 검출기인 PP-PicoDet와 지식 증류 알고리즘 FGD(Fast Generalized Distillation)를 도입하였으며, 이로 인해 유사한 mAP(median Average Precision)를 유지하면서 추론 속도가 11배 향상되었습니다. 표 인식 모델에 대해서는, 백본 모듈, 특징 융합 모듈, 디코딩 모듈 각각을 최적화하기 위해 PP-LCNet, CSP-PAN(Convolutions Spatial Pyramid Pooling - Path Aggregation Network), SLAHead(Single-Level Attention Head)를 활용하였으며, 이로 인해 유사한 추론 속도를 유지하면서 표 구조 정확도가 6% 향상되었습니다.주요 정보 추출 모델에 대해서는, 시각적 특징에 의존하지 않는 LayoutXLM 구조인 VI-LayoutXLM, TB-YX 정렬 알고리즘 및 U-DML(Unified Dual-stage Multi-level) 지식 증류 알고리즘을 도입하여 의미實體 인식(Semantic Entity Recognition) 및 관계 추출(Relation Extraction) 작업의 Hmean(Harmonic Mean) 성능이 각각 2.8%와 9.1% 개선되었습니다. 위에서 언급된 모든 모델과 코드는 GitHub 저장소 PaddleOCR에서 오픈 소스로 제공됩니다. 注:在最后一句中,“意义實體” 应该是 “意义实体”,这里可能是笔误。正确的翻译应该是:주요 정보 추출 모델에 대해서는, 시각적 특징에 의존하지 않는 LayoutXLM 구조인 VI-LayoutXLM, TB-YX 정렬 알고리즘 및 U-DML(Unified Dual-stage Multi-level) 지식 증류 알고리즘을 도입하여 의미 엔티티 인식(Semantic Entity Recognition) 및 관계 추출(Relation Extraction) 작업의 Hmean(Harmonic Mean) 성능이 각각 2.8%와 9.1% 개선되었습니다. 위에서 언급된 모든 모델과 코드는 GitHub 저장소 PaddleOCR에서 오픈 소스로 제공됩니다.