HyperAIHyperAI
منذ 17 أيام

BROS: نموذج لغوي مُدرّب مسبقًا يركّز على النص والهيكل لتحقيق استخراج أفضل للمعلومات الرئيسية من المستندات

Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park
BROS: نموذج لغوي مُدرّب مسبقًا يركّز على النص والهيكل لتحقيق استخراج أفضل للمعلومات الرئيسية من المستندات
الملخص

استخراج المعلومات الأساسية (KIE) من صور المستندات يتطلب فهم الدلالة السياقية والمكانية للنصوص في الفضاء ثنائي الأبعاد (2D). حاولت العديد من الدراسات الحديثة حل هذه المهمة من خلال تطوير نماذج لغوية مُدرّبة مسبقًا تركز على دمج السمات البصرية من صور المستندات مع النصوص وترتيبها المكاني. أما في هذا البحث، فيتم معالجة المشكلة من خلال العودة إلى الأساس: الجمع الفعّال بين النصوص وترتيبها المكاني. بشكل خاص، نقترح نموذجًا لغويًا مُدرّبًا مسبقًا يُسمى BROS (BERT Relying On Spatiality)، والذي يُشفّر المواقع النسبية للنصوص في الفضاء ثنائي الأبعاد، ويتعلّم من المستندات غير المُعلّمة باستخدام استراتيجية تغطية المناطق (area-masking). وبفضل هذه الخطة المُحسّنة للتدريب لفهم النصوص في الفضاء ثنائي الأبعاد، يُظهر نموذج BROS أداءً مماثلًا أو أفضل من الأساليب السابقة على أربع معايير لاستخراج المعلومات الأساسية (FUNSD، SROIE*، CORD، وSciTSR) دون الاعتماد على السمات البصرية. كما يكشف هذا البحث عن تحديين واقعيين في مهام استخراج المعلومات الأساسية: (1) تقليل الخطأ الناتج عن ترتيب النصوص الخاطئ، و(2) التعلّم الفعّال من عدد محدود من الأمثلة في المهام التالية (downstream). ويُظهر بروز BROS مقارنةً بالأساليب السابقة. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/clovaai/bros.