HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات استخراج معلومات المستندات Extract-0

التاريخ

منذ 19 أيام

الحجم

55.5 MB

المؤسسة

إنتلي

رابط الورقة البحثية

2509.22906

الترخيص

Apache 2.0

Extract-0 عبارة عن مجموعة بيانات عالية الجودة للتدريب والتقييم مصممة لمهام استخراج معلومات المستندات، أصدرتها Inteli في عام 2025. نتائج الورقة ذات الصلة هي "Extract-0: نموذج لغوي متخصص لاستخراج معلومات المستندات"، والذي يهدف إلى دعم الأبحاث المتعلقة بتحسين أداء نماذج المعلمات صغيرة الحجم في مهام الاستخراج المعقدة.

تحتوي مجموعة البيانات هذه على 280,128 مثالاً لاستخراج المستندات، مُشتقة من 34,761 جزءًا من المستندات. يتراوح متوسط طول كل مثال بين 532 و1900 رمز، ويغطي مجموعة متنوعة من هياكل البيانات (مثل الكائنات والمصفوفات والسلاسل النصية والتواريخ والأرقام). تأتي البيانات من بيانات نصية جُمعت من أوراق arXiv الأكاديمية، وPubMed Central، ومدخلات ويكيبيديا، وقاعدة بيانات إدارة الغذاء والدواء الأمريكية (FDA). يتكون كل مثال من جزء أصلي من المستند، ومهمة الاستخراج المُقابلة له القائمة على المخطط، ومخرجاته المُهيكلة، مما يوفر معيارًا موحدًا لتدريب الاستخراج عبر نطاقات وتنسيقات متعددة.

Extract-0.torrent
البذر 1التنزيل 0مكتمل 10إجمالي التنزيلات 25
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp