Command Palette
Search for a command to run...
ITA: محاذاة الصورة والنص للاعتراف بالكيانات الاسمية متعددة الأوضاع
ITA: محاذاة الصورة والنص للاعتراف بالكيانات الاسمية متعددة الأوضاع
Yong Jiang Kewei Tu Xinyu Wang Min Gui Nguyen Bach
الملخص
في الآونة الأخيرة، حظيت تقنية التعرف على الكيانات المسماة متعددة الوسائط (MNER) باهتمام كبير. تعتمد معظم الدراسات على معلومات الصور من خلال تمثيلات بصرية على مستوى المناطق التي يتم الحصول عليها من كاشف أشياء مُدرَّب مسبقًا، وتستند إلى آلية الانتباه لنمذجة التفاعلات بين تمثيلات الصورة والنص. ومع ذلك، فإن نمذجة هذه التفاعلات أمر صعب لأن تمثيلات الصورة والنص تُدرَّب بشكل منفصل على بيانات وسائطهما الخاصة ولا تتناسق في نفس الفضاء. نظرًا لأن تمثيلات النص تلعب الدور الأهم في MNER، فقد اقترحنا في هذا البحث تقنية تناسق الصورة مع النص (ITA) لتناسق خصائص الصورة مع الفضاء النصي، مما يتيح استخدام آلية الانتباه في نماذج التضمين النصي المُدرَّبة بالاعتماد على المتحولات بشكل أفضل.تقوم ITA أولاً بتناسق الصورة إلى علامات أشياء إقليمية، وتصنيفات مستويات الصورة، وأحرف ضوئية كسياقات بصرية، ثم تقوم بتجميعها مع النصوص الإدخالية لتكون إدخالًا جديدًا متعدد الوسائط. بعد ذلك، يتم تقديم هذا الإدخال إلى نموذج تضمين نصي مُدرَّب مسبقًا. هذا يجعل من السهل على وحدة الانتباه في نموذج التضمين النصي المُدرَّب مسبقًا نمذجة التفاعل بين الوسائط الثنائية لأنه يتم تمثيلهما في الفضاء النصي. بالإضافة إلى ذلك، تقوم ITA بتناسق التوزيعات الإخراجية المتوقعة من الإدخال المتعدد الوسائط والإدخال النصي لجعل نموذج MNER أكثر عملية عند التعامل مع المدخلات النصية فقط وأكثر مقاومة للضوضاء القادمة من الصور.في تجاربنا، أظهرنا أن نماذج ITA يمكن أن تحقق دقة قياسية في مجموعات البيانات المتعلقة بالتعرف على الكيانات المسماة متعددة الوسائط حتى بدون معلومات الصورة.