ERNIE-Layout: تدريب مُعزز بالمعرفة البصرية لفهم الوثائق الغنية بصرياً

شهدت السنوات الأخيرة ارتفاعًا ونجاحًا في تقنيات التدريب المسبق لفهم الوثائق الغنية بصريًا. ومع ذلك، فإن معظم الطرق الحالية تفتقر إلى التنقيب المنظم والاستفادة من المعرفة المرتكزة على التخطيط (layout)، مما يؤدي إلى أداء غير مثالي. في هذا البحث، نقترح ERNIE-Layout، حل جديد للتدريب المسبق على الوثائق يعزز المعرفة بالتخطيط في جميع مراحل العملية، بهدف تعلم تمثيلات أفضل تجمع بين الخصائص النصية والتخطيطية والبصرية. بشكل خاص، نعيد ترتيب المتسلسلات الدخلية في مرحلة التسلسل (serialization)، ثم نقدم مهمة تدريب مسبقة ذات صلة وهي التنبؤ بترتيب القراءة لتعلم الترتيب الصحيح لقراءة الوثائق. لتحسين وعي النموذج بالتخطيط، قمنا بدمج انتباه فك الارتباط ذو الوعي المكاني (spatial-aware disentangled attention) في المتحول متعدد الأوضاع (multi-modal transformer) ومهمة التنبؤ بالمناطق المستبدلة (replaced regions prediction) في مرحلة التدريب المسبق. تظهر النتائج التجريبية أن ERNIE-Layout حقق أداءً متفوقًا في مجموعة متنوعة من المهام الثانوية، وأقام معايير جديدة لأفضل الأداء في استخراج المعلومات الرئيسية، تصنيف الصور الوثائقية، وطرح أسئلة على الوثائق. الرمز البرمجي والنموذج متاحان للعامة على الرابط: http://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout.