HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données d'extraction d'informations De Document Extract-0

Date

il y a 4 mois

Taille

55.5 MB

Organisation

Inteli

URL du document

2509.22906

Licence

Apache 2.0

Extract-0 est un ensemble de données de formation et d'évaluation de haute qualité conçu pour les tâches d'extraction d'informations documentaires, publié par Inteli en 2025. Les résultats de l'article associé sont «Extract-0 : un modèle de langage spécialisé pour l'extraction d'informations documentaires", qui vise à soutenir la recherche sur l'optimisation des performances des modèles de paramètres à petite échelle dans les tâches d'extraction complexes.

Cet ensemble de données contient 280 128 exemples d'extraction de documents, issus de 34 761 fragments de documents. Chaque exemple comporte en moyenne entre 532 et 1 900 jetons et couvre diverses structures de données (objets, tableaux, chaînes, dates et nombres). Les données proviennent de données textuelles collectées à partir d'articles universitaires sur arXiv, de PubMed Central, d'entrées Wikipédia et de la base de données de la FDA (Food and Drug Administration américaine). Chaque exemple se compose d'un fragment de document original, de sa tâche d'extraction basée sur un schéma et de sa sortie structurée, offrant ainsi une norme d'apprentissage d'extraction unifiée pour de multiples domaines et formats.

Extract-0.torrent
Seeding 1Téléchargement 0Terminé 30Total Downloads 102
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp