HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات استخراج معلومات المستندات Extract-0

التاريخ

منذ 4 أشهر

الحجم

55.5 MB

المؤسسة

إنتلي

رابط الورقة البحثية

2509.22906

الترخيص

Apache 2.0

Extract-0 عبارة عن مجموعة بيانات عالية الجودة للتدريب والتقييم مصممة لمهام استخراج معلومات المستندات، أصدرتها Inteli في عام 2025. نتائج الورقة ذات الصلة هي "Extract-0: نموذج لغوي متخصص لاستخراج معلومات المستندات"، والذي يهدف إلى دعم الأبحاث المتعلقة بتحسين أداء نماذج المعلمات صغيرة الحجم في مهام الاستخراج المعقدة.

تحتوي مجموعة البيانات هذه على 280,128 مثالاً لاستخراج المستندات، مُشتقة من 34,761 جزءًا من المستندات. يتراوح متوسط طول كل مثال بين 532 و1900 رمز، ويغطي مجموعة متنوعة من هياكل البيانات (مثل الكائنات والمصفوفات والسلاسل النصية والتواريخ والأرقام). تأتي البيانات من بيانات نصية جُمعت من أوراق arXiv الأكاديمية، وPubMed Central، ومدخلات ويكيبيديا، وقاعدة بيانات إدارة الغذاء والدواء الأمريكية (FDA). يتكون كل مثال من جزء أصلي من المستند، ومهمة الاستخراج المُقابلة له القائمة على المخطط، ومخرجاته المُهيكلة، مما يوفر معيارًا موحدًا لتدريب الاستخراج عبر نطاقات وتنسيقات متعددة.

Extract-0.torrent
البذر 1جارٍ التنزيل 0مكتمل 30إجمالي التنزيلات 102
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp