لامبرت: النمذجة المستندة إلى التخطيط (اللغوية) لاستخراج المعلومات

نُقدّم نهجًا بسيطًا جديدًا لحل مشكلة فهم المستندات حيث تؤثر التخطيطات المعقدة على المعاني المحلية. ولتحقيق ذلك، نُعدّل بنية معّالج التحويلي (Transformer encoder) بطريقة تسمح لها باستخدام ميزات التخطيط المستمدة من نظام OCR، دون الحاجة إلى إعادة تعلّم الدلالات اللغوية من البداية. نُضفي فقط إحداثيات مربعات الحدود الخاصة بكل رمز (token) على مدخلات النموذج، مما يُجنبنا استخدام الصور الخام. ويؤدي هذا إلى نموذج لغوي يراعي التخطيط، والذي يمكن تحسينه لمهام لاحقة (downstream tasks).تم تقييم النموذج على مهمة استخراج المعلومات من النهاية إلى النهاية باستخدام أربع مجموعات بيانات متاحة للعامة: Kleister NDA، Kleister Charity، SROIE، وCORD. ونُظهر أن النموذج يحقق أداءً متفوقًا على المجموعات التي تحتوي على مستندات غنية بصريًا، كما يتفوق على النموذج الأساسي RoBERTa في المستندات ذات التخطيط المسطح (زيادة في دقة F₁ من 78.50 إلى 80.42 في مجموعة NDA). واحتل حلنا المرتبة الأولى في لوحة التصنيف العامة الخاصة بـ SROIE، حيث تحسن معدّل F₁ من الوضع الحالي (SOTA) من 97.81 إلى 98.17.