Command Palette
Search for a command to run...
ParseBench 문서 구문 분석 기능 평가 데이터 세트
ParseBench 문서 구문 분석 기능 평가 데이터 세트는 LlamaIndex 팀에서 2024~2025년에 공개했으며, 관련 논문 결과는 다음과 같습니다. ParseBench: AI 에이전트를 위한 문서 구문 분석 벤치마크이 프로젝트는 전통적인 OCR에서 구조화된 이해로의 문서 구문 분석을 촉진하고, 멀티모달 모델 및 정보 추출 시스템의 평가 및 최적화를 지원하는 것을 목표로 합니다. 이 데이터셋은 수동으로 검증 및 레이블링된 약 2,000개의 페이지와 5개 차원에 걸쳐 169,011개의 테스트 규칙으로 구성되어 있습니다. 이 페이지들은 보험, 금융, 정부 및 기타 분야의 공개 기업 문서에서 추출되었으며, PDF, 스캔 이미지, 표 및 레이아웃 구조를 포함하는 페이지 등 다양한 유형을 포함합니다. 표준화된 구문 분석 결과가 제공되며, 모델의 구조 이해 및 정보 추출 성능을 평가하기 위해 사람의 주석과 함께 분석되었습니다.