HyperAI

Extract-0은 Inteli에서 2025년에 발표한 문서 정보 추출 작업을 위해 설계된 고품질 학습 및 평가 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.Extract-0: 문서 정보 추출을 위한 특수 언어 모델"는 복잡한 추출 작업에서 소규모 매개변수 모델의 성능 최적화에 대한 연구를 지원하는 것을 목표로 합니다.

이 데이터 세트는 34,761개의 문서 청크에서 추출된 280,128개의 문서 추출 예제를 포함합니다. 각 예제는 평균 약 532~1,900개의 토큰 길이를 가지며 다양한 데이터 구조(예: 객체, 배열, 문자열, 날짜, 숫자)를 포함합니다. 이 데이터는 arXiv 학술 논문, PubMed Central, Wikipedia 항목 및 FDA(미국 식품의약국) 데이터베이스에서 수집된 텍스트 데이터에서 가져왔습니다. 각 예제는 원본 문서 조각, 해당 스키마 기반 추출 작업, 그리고 구조화된 출력으로 구성되어 여러 도메인 및 형식에 걸쳐 통합된 추출 학습 표준을 제공합니다.

Extract-0 문서 정보 추출 데이터 세트

AI로 AI 구축

Hyper Newsletters

Command Palette

Extract-0 문서 정보 추출 데이터 세트

AI로 AI 구축

Hyper Newsletters