استخراج الفهارس من الوثائق

استخراج المعلومات جملة بجملة من الوثائق الطويلة هو مهمة مرهقة ومعرضة للأخطاء. تعتبر الفهارس، كمؤشر للهيكل العام للوثيقة، وسيلة طبيعية لتقسيم الوثائق إلى أقسام وتوفير معاني متدرجة ذات معلومات، مما يمكن أن يساعد في تقليل نطاق البحث. رغم فائدتها، فإن استخراج الفهارس يكون صعبًا دون المساعدة من المعرفة الخارجية. بالنسبة للوثائق التي تتبع قالبًا معينًا، تعد التعبيرات النمطية واقعية لاستخراج الفهارس. ومع ذلك، لا يمكن تطبيق القواعد اليدوية عند معالجة وثائق من مصادر مختلفة وبتنسيق متنوع. لحل هذه المشكلة، قمنا بإنشاء مجموعة بيانات كبيرة تم تسميتها يدويًا، وهي أول مجموعة بيانات لمهمة استخراج الفهارس من الوثائق (CED). بناءً على هذه المجموعة البيانات، اقترحنا إطار عمل يستند إلى الانتقالات لتحليل الوثائق إلى أشجار الفهارس. تظهر نتائج التجارب أن الطريقة المقترحة لدينا تتفوق على الأنظمة الأساسية وتظهر قدرة جيدة على النقل. نعتقد أن مهمة CED يمكن أن تقفل الثغرة بين المقاطع النصية الخام ومهمات استخراج المعلومات في الوثائق الطويلة للغاية. البيانات والكود متاحة في \url{https://github.com/Spico197/CatalogExtraction}