HyperAIHyperAI

Command Palette

Search for a command to run...

DocFormer: نموذج تحويلي نهائياً للفهم المستند إلى الوثائق

Srikar Appalaraju Bhavan Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha

الملخص

نقدّم "DocFormer" — وهي بنية قائمة على المحولات متعددة الوسائط (multi-modal transformer) مُصممة لمهام فهم المستندات البصرية (Visual Document Understanding, VDU). تُعدّ مسألة VDU تحديًا كبيرًا، وتهدف إلى فهم المستندات بتنسيقاتها المتنوعة (مثل النماذج، الفواتير، وغيرها) وأحجامها المختلفة. علاوةً على ذلك، تم تدريب DocFormer بشكل غير مراقب باستخدام مهام مُصممة بعناية تشجع على التفاعل متعدد الوسائط. تعتمد DocFormer على ميزات النص والرؤية والمكان، وتحللها عبر طبقة انتباه ذاتي متعددة الوسائط مبتكرة. كما تُشارك DocFormer تمثيلات مكانية مُتعلّمة عبر الوسائط المختلفة، مما يُسهّل على النموذج ربط العناصر النصية بالرموز البصرية والعكس. تم تقييم DocFormer على أربع مجموعات بيانات مختلفة، كل منها تمتلك قواعد مقارنة قوية. وقد حققت DocFormer نتائج متفوقة على مستوى الحالة الحالية (state-of-the-art) في جميع هذه المجموعات، وفي بعض الأحيان تفوق نماذج أربع مرات أكبر حجمها (من حيث عدد المعاملات).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DocFormer: نموذج تحويلي نهائياً للفهم المستند إلى الوثائق | مستندات | HyperAI