HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ensemble De Données d'extraction d'informations De Document Extract-0

Date

il y a 2 mois

Size

55.5 MB

Organization

Inteli

Paper URL

2509.22906

License

Apache 2.0

Extract-0 est un ensemble de données de formation et d'évaluation de haute qualité conçu pour les tâches d'extraction d'informations documentaires, publié par Inteli en 2025. Les résultats de l'article associé sont «Extract-0 : un modèle de langage spécialisé pour l'extraction d'informations documentaires", qui vise à soutenir la recherche sur l'optimisation des performances des modèles de paramètres à petite échelle dans les tâches d'extraction complexes.

Cet ensemble de données contient 280 128 exemples d'extraction de documents, issus de 34 761 fragments de documents. Chaque exemple comporte en moyenne entre 532 et 1 900 jetons et couvre diverses structures de données (objets, tableaux, chaînes, dates et nombres). Les données proviennent de données textuelles collectées à partir d'articles universitaires sur arXiv, de PubMed Central, d'entrées Wikipédia et de la base de données de la FDA (Food and Drug Administration américaine). Chaque exemple se compose d'un fragment de document original, de sa tâche d'extraction basée sur un schéma et de sa sortie structurée, offrant ainsi une norme d'apprentissage d'extraction unifiée pour de multiples domaines et formats.

Extract-0.torrent
Seeding 2Downloading 0Completed 20Total Downloads 73
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp