Command Palette
Search for a command to run...
Ensemble De Données d'extraction d'informations De Document Extract-0
Date
Taille
URL de l'article
Licence
Apache 2.0
Extract-0 est un ensemble de données de formation et d'évaluation de haute qualité conçu pour les tâches d'extraction d'informations documentaires, publié par Inteli en 2025. Les résultats de l'article associé sont «Extract-0 : un modèle de langage spécialisé pour l'extraction d'informations documentaires", qui vise à soutenir la recherche sur l'optimisation des performances des modèles de paramètres à petite échelle dans les tâches d'extraction complexes.
Cet ensemble de données contient 280 128 exemples d'extraction de documents, issus de 34 761 fragments de documents. Chaque exemple comporte en moyenne entre 532 et 1 900 jetons et couvre diverses structures de données (objets, tableaux, chaînes, dates et nombres). Les données proviennent de données textuelles collectées à partir d'articles universitaires sur arXiv, de PubMed Central, d'entrées Wikipédia et de la base de données de la FDA (Food and Drug Administration américaine). Chaque exemple se compose d'un fragment de document original, de sa tâche d'extraction basée sur un schéma et de sa sortie structurée, offrant ainsi une norme d'apprentissage d'extraction unifiée pour de multiples domaines et formats.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.