نهج رسومي لتحليل تخطيط الوثيقة

تحليل تخطيط الوثيقة (DLA) هو مهمة كشف المحتوى الدلالي المتميز داخل وثيقة وتصنيف هذه العناصر بشكل صحيح في فئة مناسبة (مثل النص، العنوان، الشكل). تمكن أنابيب DLA المستخدمين من تحويل الوثائق إلى تنسيقات قابلة للقراءة بواسطة الآلة ومُهيكلة يمكن استخدامها بعد ذلك في العديد من المهام اللاحقة المفيدة. ومع ذلك، فإن معظم النماذج الحالية المتقدمة (SOTA) لـ DLA تمثل الوثائق كصور، مما يؤدي إلى التخلص من البيانات الوصفية الغنية المتاحة في الوثائق الإلكترونية المولدة بتنسيق PDF. عن طريق الاستفادة مباشرة من هذه البيانات الوصفية، نمثل كل صفحة PDF كرسم بياني مُهيكل ونقوم بتقديم مشكلة TLA على أنها مشكلة تقسيم وتصنيف الرسم البياني. نقدم نموذج تحليل التخطيط القائم على الرسم البياني (GLAM)، وهو شبكة عصبية بيانية خفيفة الوزن تنافس النماذج المتقدمة الحالية (SOTA) على مجموعتين من البيانات الصعبة لـ DLA - مع كونه أصغر بمagnitude واحد من النماذج الموجودة. وبشكل خاص، يتفوق نموذج GLAM الذي يحتوي على 4 ملايين معلمة على النموذج الرائد القائم على رؤية الكمبيوتر الذي يحتوي على أكثر من 140 مليون معلمة في 5 من أصل 11 فئة في مجموعة بيانات DocLayNet. يحقق الجمع البسيط بين هذين النموذجين مستوى جديدًا متقدمًا في DocLayNet، حيث يزيد mAP من 76.8 إلى 80.8. بشكل عام، يعتبر GLAM أكثر كفاءة بأكثر من 5 مرات من النماذج المتقدمة الحالية (SOTA)، مما يجعله خيارًا هندسيًا مفضلًا للمهام المتعلقة بتحليل تخطيط الوثيقة.