GeoLayoutLM: التدريب الهندسي لاستخراج المعلومات البصرية

استخراج المعلومات البصرية (VIE) يلعب دورًا مهمًا في ذكاء الوثائق. بشكل عام، يتم تقسيمه إلى مهامين رئيسيين: التعرف على الكيانات الدلالية (SER) واستخراج العلاقات (RE). مؤخرًا، حققت النماذج المدربة مسبقًا للوثائق تقدمًا كبيرًا في VIE، خاصةً في SER. ومع ذلك، فإن معظم النماذج الحالية تتعلم التمثيل الهندسي بطريقة ضمنية، والتي تم العثور على أنها غير كافية لـ RE نظرًا لأهمية المعلومات الهندسية بشكل خاص لهذه المهمة. بالإضافة إلى ذلك، نكشف عن عامل آخر يحد من أداء RE وهو الفجوة الهدف بين مرحلة التدريب المسبق ومرحلة التعديل الدقيق لـ RE. لمعالجة هذه القضايا، نقترح في هذا البحث إطارًا متعدد الأوضاع يُسمى GeoLayoutLM للاستخراج البصري للمعلومات.يقوم GeoLayoutLM بتمثيل العلاقات الهندسية بشكل صريح خلال التدريب المسبق، والذي نطلق عليه التدريب الهندسي المسبق. يتم تحقيق التدريب الهندسي المسبق من خلال ثلاث مهام تدريب مسبق مصممة خصيصًا لتتعلق بالهندسة. بالإضافة إلى ذلك، تم تصميم رؤوس علاقات جديدة بعناية لتغنى وتزيد من تمثيل الخصائص، حيث يتم تدريبها مسبقًا بواسطة مهام التدريب الهندسي المسبق وتعديلها بدقة لـ RE.وفقًا للتجارب الواسعة التي أجريت على مقاييس VIE القياسية، حقق GeoLayoutLM درجات تنافسية للغاية في مهمة SER وأظهر تفوقًا واضحًا على أفضل التقنيات السابقة في RE (مثل زيادة دقة F1 لـ RE على مجموعة بيانات FUNSD من 80.35٪ إلى 89.45٪). الرمز والنماذج متاحة للعامة على الرابط:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/GeoLayoutLM