HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'extraction d'informations De Document Extract-0

Date

il y a 19 jours

Taille

55.5 MB

Organisation

Inteli

URL de l'article

2509.22906

Licence

Apache 2.0

Extract-0 est un ensemble de données de formation et d'évaluation de haute qualité conçu pour les tâches d'extraction d'informations documentaires, publié par Inteli en 2025. Les résultats de l'article associé sont «Extract-0 : un modèle de langage spécialisé pour l'extraction d'informations documentaires", qui vise à soutenir la recherche sur l'optimisation des performances des modèles de paramètres à petite échelle dans les tâches d'extraction complexes.

Cet ensemble de données contient 280 128 exemples d'extraction de documents, issus de 34 761 fragments de documents. Chaque exemple comporte en moyenne entre 532 et 1 900 jetons et couvre diverses structures de données (objets, tableaux, chaînes, dates et nombres). Les données proviennent de données textuelles collectées à partir d'articles universitaires sur arXiv, de PubMed Central, d'entrées Wikipédia et de la base de données de la FDA (Food and Drug Administration américaine). Chaque exemple se compose d'un fragment de document original, de sa tâche d'extraction basée sur un schéma et de sa sortie structurée, offrant ainsi une norme d'apprentissage d'extraction unifiée pour de multiples domaines et formats.

Extract-0.torrent
Partage 1Téléchargement 0Terminés 10Téléchargements totaux 25
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ensemble De Données d'extraction d'informations De Document Extract-0 | Ensembles de données | HyperAI