HyperAIHyperAI

Command Palette

Search for a command to run...

نهج مبني على Transformer لفهم المستندات

William Hsu Huichen Yang

الملخص

نقدم إطارًا متكاملًا قائماً على المحولات (Transformer) يُسمى TRDLU لمهام فهم تخطيط المستند (Document Layout Understanding - DLU). تُعد DLU المهمة الأساسية لفهم هيكل المستند تلقائيًا. لا يزال من الصعب تحديد مربعات المحتوى بدقة وتصنيفها إلى فئات ذات معنى معنوي، من أشكال متعددة للمستندات، وهو ما يظل تحديًا مفتوحًا. في الآونة الأخيرة، أظهرت شبكات التعلم العميق القائمة على المحولات قدرتها على التفوق على الأساليب التقليدية القائمة على التحويلات التلافيفية (Convolutional) في مجال كشف الكائنات. في هذه الورقة، ننظر إلى DLU كمهمة كشف، ونُقدِّم TRDLU الذي يُدمج بين نواة بصرية قائمة على المحولات ومحول التشفير-التفكيك (Encoder-Decoder) كمسار كشف. على الرغم من أن TRDLU هو إطار يعتمد فقط على السمات البصرية، إلا أن أداؤه يفوق نماذج تعتمد على سمات متعددة الوسائط. إلى حد معرفتنا، هذه أول دراسة تُستخدم فيها إطار عمل كاملًا قائماً على المحولات في مهام DLU. تم تقييم TRDLU على ثلاث مجموعات معيارية مختلفة لمهام DLU، كل منها تمتلك قواعد مقارنة قوية. وقد تفوق TRDLU على أحدث الطرق المتطورة في جميع هذه المجموعات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp