HyperAIHyperAI
منذ 2 أشهر

استخراج الكيانات المسماة والعلاقات باستخدام الاسترجاع متعدد الوسائط

Xinyu Wang; Jiong Cai; Yong Jiang; Pengjun Xie; Kewei Tu; Wei Lu
استخراج الكيانات المسماة والعلاقات باستخدام الاسترجاع متعدد الوسائط
الملخص

التعرف على الكيانات المسماة متعددة الوسائط واستخراج العلاقات (Multi-modal Named Entity Recognition (NER) وRelation Extraction (RE)) يهدف إلى الاستفادة من المعلومات المرتبطة بالصور ذات الصلة لتحسين أداء التعرف على الكيانات المسماة واستخراج العلاقات. ركزت معظم الجهود الحالية بشكل كبير على استخراج المعلومات المحتملة المفيدة مباشرة من الصور (مثل خصائص المستوى البكسل، الأشياء المحددة، والعنواين المرتبطة). ومع ذلك، قد لا تكون هذه عمليات الاستخراج مدركة للمعرفة، مما يؤدي إلى معلومات قد لا تكون ذات صلة عالية. في هذا البحث، نقترح إطارًا جديدًا يستند إلى استرجاع متعدد الوسائط (MoRe). يتضمن MoRe وحدة استرجاع النص وأخرى تعتمد على الصورة، حيث تقوم كل منهما باسترجاع المعرفة ذات الصلة للنص والمدخلات البصرية في المكتبة المعرفية على التوالي. بعد ذلك، يتم إرسال نتائج الاسترجاع إلى النماذج النصية والبصرية على التوالي للتنبؤ. أخيرًا، يقوم وحدة مزيج الخبراء (Mixture of Experts (MoE)) بدمج التنبؤات من كلا النموذجين لاتخاذ القرار النهائي. تظهر تجاربنا أن كلاً من نموذجنا النصي والنموذج البصري يمكنه تحقيق أفضل الأداء في أربعة مجموعات بيانات لـ NER متعدد الوسائط وفي مجموعة بيانات واحدة لـ RE متعدد الوسائط. مع استخدام MoE، يمكن تحسين أداء النموذج بشكل أكبر، وقد أثبت تحليلنا فوائد دمج الدلائل النصية والبصرية لهذه المهام.

استخراج الكيانات المسماة والعلاقات باستخدام الاسترجاع متعدد الوسائط | أحدث الأوراق البحثية | HyperAI