LayoutLM: التدريب المسبق للنص والتخطيط لفهم صور المستندات

تم التحقق بنجاح من تقنيات التدريب المسبق في مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة. على الرغم من الاستخدام الواسع لنموذج التدريب المسبق في تطبيقات معالجة اللغة الطبيعية، فإنها تركز بشكل شبه حصري على التعديل على مستوى النص، بينما تتجاهل المعلومات المرتبطة بالتصميم والأسلوب التي تعتبر حيوية لفهم صور المستندات. في هذا البحث، نقترح استخدام \textbf{LayoutLM} لنمذجة التفاعلات المشتركة بين النص والمعلومات المرتبطة بالتصميم عبر صور المستندات المسحوبة ضوئيًا، مما يعود بالنفع على العديد من مهام فهم صور المستندات الحقيقية مثل استخراج المعلومات من المستندات المسحوبة ضوئيًا. بالإضافة إلى ذلك، نستفيد أيضًا من خصائص الصورة لدمج المعلومات البصرية للكلمات في LayoutLM. حسب علمنا، هذه هي المرة الأولى التي يتم فيها تعلم النص والمعلومات المرتبطة بالتصميم بشكل مشترك ضمن إطار واحد للتدريب المسبق على مستوى المستند. وقد حقق هذا الإطار نتائج جديدة رائدة في عدة مهام ثانوية، بما في ذلك فهم الأشكال (من 70.72 إلى 79.27)، فهم الفواتير (من 94.02 إلى 95.24) وتصنيف صور المستندات (من 93.07 إلى 94.42). الرمز البرمجي ونماذج LayoutLM المدربة مسبقًا متاحة للعامة على الرابط \url{https://aka.ms/layoutlm}.