Command Palette
Search for a command to run...
مجموعة بيانات استخراج معلومات المستندات Extract-0
التاريخ
الحجم
رابط الورقة البحثية
الترخيص
Apache 2.0
Extract-0 عبارة عن مجموعة بيانات عالية الجودة للتدريب والتقييم مصممة لمهام استخراج معلومات المستندات، أصدرتها Inteli في عام 2025. نتائج الورقة ذات الصلة هي "Extract-0: نموذج لغوي متخصص لاستخراج معلومات المستندات"، والذي يهدف إلى دعم الأبحاث المتعلقة بتحسين أداء نماذج المعلمات صغيرة الحجم في مهام الاستخراج المعقدة.
تحتوي مجموعة البيانات هذه على 280,128 مثالاً لاستخراج المستندات، مُشتقة من 34,761 جزءًا من المستندات. يتراوح متوسط طول كل مثال بين 532 و1900 رمز، ويغطي مجموعة متنوعة من هياكل البيانات (مثل الكائنات والمصفوفات والسلاسل النصية والتواريخ والأرقام). تأتي البيانات من بيانات نصية جُمعت من أوراق arXiv الأكاديمية، وPubMed Central، ومدخلات ويكيبيديا، وقاعدة بيانات إدارة الغذاء والدواء الأمريكية (FDA). يتكون كل مثال من جزء أصلي من المستند، ومهمة الاستخراج المُقابلة له القائمة على المخطط، ومخرجاته المُهيكلة، مما يوفر معيارًا موحدًا لتدريب الاستخراج عبر نطاقات وتنسيقات متعددة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.