HyperAIHyperAI
منذ 2 أشهر

DoPTA: تحسين تحليل تخطيط الوثيقة باستخدام محاذاة النصوص المتراصة

SR, Nikitha ; Menta, Tarun Ram ; Sarkar, Mausoom
DoPTA: تحسين تحليل تخطيط الوثيقة باستخدام محاذاة النصوص المتراصة
الملخص

ظهور التعلم متعدد الوسائط قد أدى إلى تحسين كبير في تقنية الذكاء الاصطناعي للوثائق. يتم الآن معالجة الوثائق ككيانات متعددة الوسائط، تدمج المعلومات النصية والبصرية لتحليلها في المهام اللاحقة. ومع ذلك، غالباً ما تكون الأعمال في هذا المجال مركزة على الجانب النصي، مستخدمة المساحة البصرية كمعلومات مساعدة. بينما قام بعض الباحثين بدراسة تقنيات تعتمد بشكل كامل على الرؤية لفهم صور الوثائق، إلا أنها تتطلب نصوصاً تم تحديدها بواسطة نظام التعرف على الحروف المطبوعة (OCR) كمدخلات أثناء الاستدلال، أو لا تتوافق مع النصوص في إجراءاتها التعليمية. لذلك، نقدم تقنية جديدة لتوفيق الصورة والنص مصممة خصيصًا للاستفادة من المعلومات النصية في صور الوثائق لتحسين الأداء في المهام البصرية. يظهر نموذج مُشفِّر الوثائق DoPTA - الذي تم تدريبه باستخدام هذه التقنية - أداءً قويًا في مجموعة واسعة من مهام فهم صور الوثائق، دون الحاجة إلى استخدام OCR أثناء الاستدلال. عند الجمع بينه وبين هدف إعادة بناء مساعد، يتفوق DoPTA باستمرار على نماذج أكبر حجمًا بينما يستخدم حسابات أقل بكثير خلال مرحلة التعلم الأولي. كما حقق DoPTA أفضل النتائج الجديدة على مقاييس D4LA وFUNSD، وهما من أصعب مقاييس تحليل الصور البصرية للوثائق.

DoPTA: تحسين تحليل تخطيط الوثيقة باستخدام محاذاة النصوص المتراصة | أحدث الأوراق البحثية | HyperAI