HyperAIHyperAI
منذ 11 أيام

انظر مرة أخرى: شبكة انتباه متوازية مزدوجة للتعرف الدقيق والمقاوم على النص في المشهد

{Junbo Guo, Hongtao Xie, Guoqing Jin, Zilong Fu}
الملخص

في الوقت الحالي، أصبح استخدام إطار عمل مشفر-مفكّك متوازٍ (PDED) في التعرف على النصوص في المشاهد اتجاهًا شائعًا بفضل مرونته وكفاءته. ومع ذلك، نظرًا لاختلاف محتوى المعلومات بين الاستفسارات (queries) والأساسات (keys) في وحدة الانتباه الموضعي المتوازية (PPAM) المستخدمة في هذا النوع من الإطارات (حيث تكون الاستفسارات متعلقة بمعلومات الموضع، بينما تكون الأساسات متعلقة بمعلومات السياق والموضع معًا)، فإن الانحراف البصري يميل إلى الظهور عند مواجهة أمثلة صعبة (مثل النصوص الضبابية أو غير المنتظمة أو الصور ذات الجودة المنخفضة). ولحل هذه المشكلة، نقترح في هذه الورقة شبكة انتباه متوازية مزدوجة (DPAN)، حيث يتم تسلسل وحدة انتباه السياق المتوازية المُصممة حديثًا (PCAM) مع الوحدة الأصلية PPAM، باستخدام معلومات السياق اللغوي لتعويض الفجوة في محتوى المعلومات بين الاستفسارات والأساسات. وبشكل محدد، في وحدة PCAM، نأخذ السمات البصرية الناتجة من PPAM كمدخلات، ونُقدّم نموذجًا لغويًا ثنائي الاتجاه لتعزيز هذه السمات بمعلومات السياق اللغوي، بهدف إنتاج استفسارات أكثر دقة. وبهذا، نضمن توافق محتوى المعلومات بين الاستفسارات والأساسات داخل وحدة PCAM، مما يساعد على إنتاج رؤى بصرية أكثر دقة، وبالتالي تحسين دقة وثبات الإطار الكلي PDED. وقد أثبتت النتائج التجريبية فعالية الوحدة المُقترحة PCAM، وبيّنت ضرورة الحفاظ على اتساق محتوى المعلومات بين الاستفسارات والأساسات في آلية الانتباه. وتفوّقت أداء شبكة DPAN على الطرق الرائدة الحالية بفارق كبير على ستة معايير، تشمل النصوص المنتظمة وغير المنتظمة، محققةً أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art). يمكن الوصول إلى الكود عبر الرابط: https://github.com/Jackandrome/DPAN.

انظر مرة أخرى: شبكة انتباه متوازية مزدوجة للتعرف الدقيق والمقاوم على النص في المشهد | أحدث الأوراق البحثية | HyperAI