PubLayNet: أكبر مجموعة بيانات على الإطلاق لتحليل تخطيط الوثائق

التعرف على تخطيط الوثائق الرقمية غير المنظمة هو خطوة مهمة عند تحليل هذه الوثائق وتحويلها إلى صيغة قابلة للقراءة آليًا ومُهيكلة للاستخدام في التطبيقات اللاحقة. أثبتت الشبكات العصبية العميقة التي تم تطويرها لرؤية الحاسوب أنها طريقة فعالة لتحليل تخطيط صور الوثائق. ومع ذلك، فإن مجموعات البيانات الخاصة بتخطيط الوثائق المتاحة حاليًا للجمهور تكون أصغر بمراحل من مجموعات البيانات المُستقرة في مجال رؤية الحاسوب. يجب تدريب النماذج باستخدام التعلم النقل من نموذج أساسي تم تدريبه مسبقًا على مجموعة بيانات تقليدية لرؤية الحاسوب. في هذا البحث، قمنا بتطوير مجموعة بيانات PubLayNet لتخطيط الوثائق من خلال مطابقة التمثيلات XML والمحتوى لأكثر من مليون مقالة PDF متاحة للجمهور على PubMed Central بشكل آلي. يبلغ حجم مجموعة البيانات هذه نفس مستوى مجموعات البيانات المُستقرة في مجال رؤية الحاسوب، حيث تحتوي على أكثر من 360 ألف صورة وثيقة، وقد تم إضافة علامات لمكونات التخطيط النموذجية للوثائق. أظهرت التجارب أن الشبكات العصبية العميقة التي تم تدريبها على PubLayNet تتعرف بدقة على تخطيط المقالات العلمية. كما أن النماذج المُدربة مسبقًا تعد أيضًا نموذجًا أساسيًا أكثر فعالية للتعلم النقل في مجال وثائق مختلف. لقد أطلقنا مجموعة البيانات (https://github.com/ibm-aur-nlp/PubLayNet) لدعم تطوير وتقييم نماذج أكثر تقدمًا لتخطيط الوثائق.