HyperAIHyperAI

Command Palette

Search for a command to run...

BROS: نموذج لغوي مُدرّب مسبقًا يركّز على النص والهيكل لتحقيق استخراج أفضل للمعلومات الرئيسية من المستندات

Teakgyu Hong Donghyun Kim Mingi Ji Wonseok Hwang Daehyun Nam Sungrae Park

الملخص

استخراج المعلومات الأساسية (KIE) من صور المستندات يتطلب فهم الدلالة السياقية والمكانية للنصوص في الفضاء ثنائي الأبعاد (2D). حاولت العديد من الدراسات الحديثة حل هذه المهمة من خلال تطوير نماذج لغوية مُدرّبة مسبقًا تركز على دمج السمات البصرية من صور المستندات مع النصوص وترتيبها المكاني. أما في هذا البحث، فيتم معالجة المشكلة من خلال العودة إلى الأساس: الجمع الفعّال بين النصوص وترتيبها المكاني. بشكل خاص، نقترح نموذجًا لغويًا مُدرّبًا مسبقًا يُسمى BROS (BERT Relying On Spatiality)، والذي يُشفّر المواقع النسبية للنصوص في الفضاء ثنائي الأبعاد، ويتعلّم من المستندات غير المُعلّمة باستخدام استراتيجية تغطية المناطق (area-masking). وبفضل هذه الخطة المُحسّنة للتدريب لفهم النصوص في الفضاء ثنائي الأبعاد، يُظهر نموذج BROS أداءً مماثلًا أو أفضل من الأساليب السابقة على أربع معايير لاستخراج المعلومات الأساسية (FUNSD، SROIE*، CORD، وSciTSR) دون الاعتماد على السمات البصرية. كما يكشف هذا البحث عن تحديين واقعيين في مهام استخراج المعلومات الأساسية: (1) تقليل الخطأ الناتج عن ترتيب النصوص الخاطئ، و(2) التعلّم الفعّال من عدد محدود من الأمثلة في المهام التالية (downstream). ويُظهر بروز BROS مقارنةً بالأساليب السابقة. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/clovaai/bros.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp