HyperAIHyperAI
منذ 11 أيام

شبكات التعرف على النص متعدد الوسائط: تحسينات تفاعلية بين الميزات البصرية والمعنوية

Byeonghu Na, Yoonsik Kim, Sungrae Park
شبكات التعرف على النص متعدد الوسائط: تحسينات تفاعلية بين الميزات البصرية والمعنوية
الملخص

أثبت المعرفة اللغوية فوائد كبيرة في التعرف على النصوص في المشهد من خلال توفير الدلالة لتحسين تسلسل الأحرف. ومع ذلك، نظرًا لأن المعرفة اللغوية تم تطبيقها بشكل منفصل على التسلسل الناتج، لم تُستغل الطرق السابقة بالكامل الدلالة لفهم المؤشرات البصرية في التعرف على النصوص. يُقدّم هذا البحث طريقة جديدة تُسمى شبكة التعرف على النصوص متعددة الوسائط (MATRN)، التي تُمكّن التفاعل بين الميزات البصرية والمعانيية لتحقيق أداء أفضل في التعرف. بشكل خاص، تُحدد MATRN أزواج الميزات البصرية والمعانيية، وتنقّل المعلومات المكانية إلى الميزات المعانيية. وباستخدام الترميز المكاني، يتم تعزيز الميزات البصرية والمعانيية من خلال الإشارة إلى الميزات ذات الصلة في الوسيط الآخر. علاوةً على ذلك، تحفّز MATRN دمج الميزات المعانيية في الميزات البصرية من خلال إخفاء المؤشرات البصرية المرتبطة بالحرف خلال مرحلة التدريب. تُظهر التجارب أن MATRN تحقق أداءً متقدماً على مستوى العالم في سبعة معايير، وبفارق كبير، في حين تُظهر الطرق البسيطة التي تدمج الوسائط معاً تحسينات أقل فعالية. وتدعم الدراسات التحليلية الإضافية فعالية المكونات المقترحة. يمكن الوصول إلى التنفيذ الخاص بنا عبر الرابط: https://github.com/wp03052/MATRN.

شبكات التعرف على النص متعدد الوسائط: تحسينات تفاعلية بين الميزات البصرية والمعنوية | أحدث الأوراق البحثية | HyperAI