منذ 6 أشهر

الملخص

نقدّم "DocFormer" — وهي بنية قائمة على المحولات متعددة الوسائط (multi-modal transformer) مُصممة لمهام فهم المستندات البصرية (Visual Document Understanding, VDU). تُعدّ مسألة VDU تحديًا كبيرًا، وتهدف إلى فهم المستندات بتنسيقاتها المتنوعة (مثل النماذج، الفواتير، وغيرها) وأحجامها المختلفة. علاوةً على ذلك، تم تدريب DocFormer بشكل غير مراقب باستخدام مهام مُصممة بعناية تشجع على التفاعل متعدد الوسائط. تعتمد DocFormer على ميزات النص والرؤية والمكان، وتحللها عبر طبقة انتباه ذاتي متعددة الوسائط مبتكرة. كما تُشارك DocFormer تمثيلات مكانية مُتعلّمة عبر الوسائط المختلفة، مما يُسهّل على النموذج ربط العناصر النصية بالرموز البصرية والعكس. تم تقييم DocFormer على أربع مجموعات بيانات مختلفة، كل منها تمتلك قواعد مقارنة قوية. وقد حققت DocFormer نتائج متفوقة على مستوى الحالة الحالية (state-of-the-art) في جميع هذه المجموعات، وفي بعض الأحيان تفوق نماذج أربع مرات أكبر حجمها (من حيث عدد المعاملات).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار