LiLT: محول تخطيط بسيط ومعتمد للغة لفهم الوثائق الهيكلية

فهم الوثائق المهيكلة قد جذب اهتمامًا كبيرًا وحقق تقدمًا ملحوظًا مؤخرًا، بفضل دوره الحاسم في معالجة الوثائق الذكية. ومع ذلك، فإن معظم النماذج ذات الصلة الموجودة حاليًا يمكنها التعامل فقط مع بيانات الوثائق بلغة محددة (غالبًا الإنجليزية) التي تضمنها مجموعة التدريب الأولي، مما يعتبر قاصرًا بشكل كبير. لمعالجة هذه المشكلة، نقترح نموذج تحويلة التخطيط المستقلة عن اللغة (Language-independent Layout Transformer - LiLT) البسيط والفعال لفهم الوثائق المهيكلة. يمكن تدريب LiLT بشكل أولي على الوثائق المهيكلة بلغة واحدة ومن ثم ضبطه بدقة مباشرة على لغات أخرى باستخدام النماذج النصية أحادية اللغة/متعددة اللغات الجاهزة المقابلة. أظهرت نتائج التجارب على ثماني لغات أن LiLT يمكن أن يحقق أداءً تنافسيًا أو حتى أفضل على مجموعة متنوعة من مقاييس الأداء المستخدمة على نطاق واسع في المهام اللاحقة للتدريب، مما يمكّن من الاستفادة المستقلة عن اللغة من التدريب الأولي لهيكل التخطيط للوثيقة. الرمز والنماذج متاحة بشكل عام على الرابط: https://github.com/jpWang/LiLT.