نموذج مُعتمد على LayoutLMv3 لتحسين استخراج العلاقات في الوثائق الغنية بصرياً

فهم الوثائق هو مجال متطور في معالجة اللغات الطبيعية (NLP). وبشكل خاص، تعتبر الخصائص البصرية والمكانيّة ضرورية بالإضافة إلى النص الخام نفسه، ولذلك تم تطوير العديد من النماذج متعددة الوسائط في مجال فهم الوثائق البصرية (VDU). ومع ذلك، بينما يركز البحث بشكل أساسي على استخراج المعلومات الرئيسية (KIE)، لا يزال استخراج العلاقات (RE) بين الكيانات المحددة قليل الدراسة. على سبيل المثال، يعتبر RE حاسمًا لإعادة تجميع الكيانات أو الحصول على هيكل شامل للبيانات في وثيقة. في هذا البحث، نقدم نموذجًا تم تهييجه من LayoutLMv3 يمكنه تحقيق أو تفوق النتائج الحالية الرائدة في RE عند تطبيقه على الوثائق الغنية بصريًا (VRD) باستخدام مجموعتي بيانات FUNSD وCORD، دون الحاجة إلى أي تدريب مسبق محدد وبعدد أقل من المعلمات. كما نقدم دراسة تقليصية موسعة أجريت على مجموعة بيانات FUNSD، والتي تسلط الضوء على التأثير الكبير لبعض الخصائص واختيارات النمذجة على الأداء.