الملخص

استخراج المعلومات جملة بجملة من الوثائق الطويلة هو مهمة مرهقة ومعرضة للأخطاء. تعتبر الفهارس، كمؤشر للهيكل العام للوثيقة، وسيلة طبيعية لتقسيم الوثائق إلى أقسام وتوفير معاني متدرجة ذات معلومات، مما يمكن أن يساعد في تقليل نطاق البحث. رغم فائدتها، فإن استخراج الفهارس يكون صعبًا دون المساعدة من المعرفة الخارجية. بالنسبة للوثائق التي تتبع قالبًا معينًا، تعد التعبيرات النمطية واقعية لاستخراج الفهارس. ومع ذلك، لا يمكن تطبيق القواعد اليدوية عند معالجة وثائق من مصادر مختلفة وبتنسيق متنوع. لحل هذه المشكلة، قمنا بإنشاء مجموعة بيانات كبيرة تم تسميتها يدويًا، وهي أول مجموعة بيانات لمهمة استخراج الفهارس من الوثائق (CED). بناءً على هذه المجموعة البيانات، اقترحنا إطار عمل يستند إلى الانتقالات لتحليل الوثائق إلى أشجار الفهارس. تظهر نتائج التجارب أن الطريقة المقترحة لدينا تتفوق على الأنظمة الأساسية وتظهر قدرة جيدة على النقل. نعتقد أن مهمة CED يمكن أن تقفل الثغرة بين المقاطع النصية الخام ومهمات استخراج المعلومات في الوثائق الطويلة للغاية. البيانات والكود متاحة في \url{https://github.com/Spico197/CatalogExtraction}

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار