HyperAIHyperAI

Command Palette

Search for a command to run...

Console

مجموعة بيانات استخراج معلومات المستندات Extract-0

Date

منذ 2 أشهر

Size

55.5 MB

Organization

إنتلي

Paper URL

2509.22906

License

Apache 2.0

Extract-0 عبارة عن مجموعة بيانات عالية الجودة للتدريب والتقييم مصممة لمهام استخراج معلومات المستندات، أصدرتها Inteli في عام 2025. نتائج الورقة ذات الصلة هي "Extract-0: نموذج لغوي متخصص لاستخراج معلومات المستندات"، والذي يهدف إلى دعم الأبحاث المتعلقة بتحسين أداء نماذج المعلمات صغيرة الحجم في مهام الاستخراج المعقدة.

تحتوي مجموعة البيانات هذه على 280,128 مثالاً لاستخراج المستندات، مُشتقة من 34,761 جزءًا من المستندات. يتراوح متوسط طول كل مثال بين 532 و1900 رمز، ويغطي مجموعة متنوعة من هياكل البيانات (مثل الكائنات والمصفوفات والسلاسل النصية والتواريخ والأرقام). تأتي البيانات من بيانات نصية جُمعت من أوراق arXiv الأكاديمية، وPubMed Central، ومدخلات ويكيبيديا، وقاعدة بيانات إدارة الغذاء والدواء الأمريكية (FDA). يتكون كل مثال من جزء أصلي من المستند، ومهمة الاستخراج المُقابلة له القائمة على المخطط، ومخرجاته المُهيكلة، مما يوفر معيارًا موحدًا لتدريب الاستخراج عبر نطاقات وتنسيقات متعددة.

Extract-0.torrent
Seeding 2Downloading 0Completed 20Total Downloads 73
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp