HyperAIHyperAI

Command Palette

Search for a command to run...

DoPTA: تحسين تحليل تخطيط الوثيقة باستخدام محاذاة النصوص المتراصة

SR Nikitha ; Menta Tarun Ram ; Sarkar Mausoom

الملخص

ظهور التعلم متعدد الوسائط قد أدى إلى تحسين كبير في تقنية الذكاء الاصطناعي للوثائق. يتم الآن معالجة الوثائق ككيانات متعددة الوسائط، تدمج المعلومات النصية والبصرية لتحليلها في المهام اللاحقة. ومع ذلك، غالباً ما تكون الأعمال في هذا المجال مركزة على الجانب النصي، مستخدمة المساحة البصرية كمعلومات مساعدة. بينما قام بعض الباحثين بدراسة تقنيات تعتمد بشكل كامل على الرؤية لفهم صور الوثائق، إلا أنها تتطلب نصوصاً تم تحديدها بواسطة نظام التعرف على الحروف المطبوعة (OCR) كمدخلات أثناء الاستدلال، أو لا تتوافق مع النصوص في إجراءاتها التعليمية. لذلك، نقدم تقنية جديدة لتوفيق الصورة والنص مصممة خصيصًا للاستفادة من المعلومات النصية في صور الوثائق لتحسين الأداء في المهام البصرية. يظهر نموذج مُشفِّر الوثائق DoPTA - الذي تم تدريبه باستخدام هذه التقنية - أداءً قويًا في مجموعة واسعة من مهام فهم صور الوثائق، دون الحاجة إلى استخدام OCR أثناء الاستدلال. عند الجمع بينه وبين هدف إعادة بناء مساعد، يتفوق DoPTA باستمرار على نماذج أكبر حجمًا بينما يستخدم حسابات أقل بكثير خلال مرحلة التعلم الأولي. كما حقق DoPTA أفضل النتائج الجديدة على مقاييس D4LA وFUNSD، وهما من أصعب مقاييس تحليل الصور البصرية للوثائق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DoPTA: تحسين تحليل تخطيط الوثيقة باستخدام محاذاة النصوص المتراصة | مستندات | HyperAI