VSR: إطار موحد لتحليل تخطيط المستندات يجمع بين الرؤية والمعاني والعلاقات

تحليل تخطيط المستندات أمر بالغ الأهمية لفهم هيكل المستندات. وفي هذا السياق، تساهم الرؤية والمعاني الخاصة بالمستندات، بالإضافة إلى العلاقات بين مكونات التخطيط، في عملية الفهم. وعلى الرغم من الدراسات العديدة التي تم اقتراحها لاستغلال هذه المعلومات، إلا أنها أظهرت نتائج غير مرضية. حيث تُعد الطرق القائمة على معالجة اللغة الطبيعية (NLP) نموذج تحليل التخطيط على أنه مهمة تسمية تسلسلية، وتُظهر قدرات محدودة في نمذجة التخطيط. أما الطرق القائمة على الرؤية الحاسوبية (CV)، فهي تُعامل تحليل التخطيط كمهمة كشف أو تقسيم، لكنها تعاني من قيود تتعلق بدمج الوسائط غير الفعّال، وغياب نمذجة العلاقات بين مكونات التخطيط. ولحل هذه القيود، نقترح إطارًا موحدًا يُسمى VSR لتحليل تخطيط المستندات، يجمع بين الرؤية والمعاني والعلاقات. ويُدعم إطار VSR كلًا من الطرق القائمة على NLP والطرق القائمة على CV. بشكل محدد، نُقدّم أولًا الرؤية من خلال صورة المستند، والمعاني من خلال خرائط التضمين النصي. ثم نستخرج ميزات بصرية وذاتية مخصصة لكل وسيلة باستخدام شبكة ذات تدفقين، والتي تُدمج تلقائيًا للاستفادة القصوى من المعلومات المكملة. وأخيرًا، وباستخدام مرشحات مكونات مرشحة، نُدمج وحدة للعلاقات تعتمد على الشبكات العصبية الرسومية (Graph Neural Networks) لنمذجة العلاقات بين المكونات وإنتاج النتائج النهائية. وقد أظهر VSR تفوقًا كبيرًا على النماذج السابقة في ثلاث معايير شهيرة. وسيتم إصدار الشفرة البرمجية قريبًا.