Command Palette

Search for a command to run...

Extract-0 문서 정보 추출 데이터 세트

날짜

19일 전

크기

55.5 MB

기관

인텔리

논문 URL

2509.22906

라이선스

Apache 2.0

Extract-0은 Inteli에서 2025년에 발표한 문서 정보 추출 작업을 위해 설계된 고품질 학습 및 평가 데이터 세트입니다. 관련 논문 결과는 다음과 같습니다.Extract-0: 문서 정보 추출을 위한 특수 언어 모델"는 복잡한 추출 작업에서 소규모 매개변수 모델의 성능 최적화에 대한 연구를 지원하는 것을 목표로 합니다.

이 데이터 세트는 34,761개의 문서 청크에서 추출된 280,128개의 문서 추출 예제를 포함합니다. 각 예제는 평균 약 532~1,900개의 토큰 길이를 가지며 다양한 데이터 구조(예: 객체, 배열, 문자열, 날짜, 숫자)를 포함합니다. 이 데이터는 arXiv 학술 논문, PubMed Central, Wikipedia 항목 및 FDA(미국 식품의약국) 데이터베이스에서 수집된 텍스트 데이터에서 가져왔습니다. 각 예제는 원본 문서 조각, 해당 스키마 기반 추출 작업, 그리고 구조화된 출력으로 구성되어 여러 도메인 및 형식에 걸쳐 통합된 추출 학습 표준을 제공합니다.

Extract-0.torrent
시딩 1다운로드 중 0완료됨 10총 다운로드 횟수 25
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Extract-0 문서 정보 추출 데이터 세트 | 데이터셋 | HyperAI초신경