مجموعة بيانات استخراج معلومات المستندات Extract-0
Date
Size
Paper URL
License
Apache 2.0
Extract-0 عبارة عن مجموعة بيانات عالية الجودة للتدريب والتقييم مصممة لمهام استخراج معلومات المستندات، أصدرتها Inteli في عام 2025. نتائج الورقة ذات الصلة هي "Extract-0: نموذج لغوي متخصص لاستخراج معلومات المستندات"، والذي يهدف إلى دعم الأبحاث المتعلقة بتحسين أداء نماذج المعلمات صغيرة الحجم في مهام الاستخراج المعقدة.
تحتوي مجموعة البيانات هذه على 280,128 مثالاً لاستخراج المستندات، مُشتقة من 34,761 جزءًا من المستندات. يتراوح متوسط طول كل مثال بين 532 و1900 رمز، ويغطي مجموعة متنوعة من هياكل البيانات (مثل الكائنات والمصفوفات والسلاسل النصية والتواريخ والأرقام). تأتي البيانات من بيانات نصية جُمعت من أوراق arXiv الأكاديمية، وPubMed Central، ومدخلات ويكيبيديا، وقاعدة بيانات إدارة الغذاء والدواء الأمريكية (FDA). يتكون كل مثال من جزء أصلي من المستند، ومهمة الاستخراج المُقابلة له القائمة على المخطط، ومخرجاته المُهيكلة، مما يوفر معيارًا موحدًا لتدريب الاستخراج عبر نطاقات وتنسيقات متعددة.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.