Command Palette
Search for a command to run...
النماذج اللغوية الكبيرة كجسور: إعادة صياغة التعرف على الكيانات الاسمية المتعددة الأوضاع المرتكزة
النماذج اللغوية الكبيرة كجسور: إعادة صياغة التعرف على الكيانات الاسمية المتعددة الأوضاع المرتكزة
Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang
الملخص
التعرف على الكيانات المسماة المتعددة الوسائط المبنية على الأرض (GMNER) هو مهمة متعددة الوسائط حديثة النشأة تهدف إلى تحديد الكيانات المسماة، أنواع الكيانات والمناطق البصرية المقابلة لها. تظهر هذه المهمة خاصيتين متعقتتين: 1) الارتباط الضعيف بين أزواج الصور والنصوص في وسائل التواصل الاجتماعي يؤدي إلى وجود نسبة كبيرة من الكيانات المسماة التي لا يمكن ربطها بالأرض. 2) هناك فرق بين التعبيرات الإشارية الخشنة التي تُستخدم عادةً في المهام المشابهة (مثل تحديد موقع العبارة، فهم التعبيرات الإشارية) والكيانات المسماة الدقيقة.في هذا البحث، نقترح RiVEG، إطار عمل موحد يعيد صياغة GMNER كمهمة مشتركة بين MNER-VE-VG من خلال الاستفادة من نماذج اللغة الكبيرة (LLMs) كجسر ربط. تجلب هذه إعادة الصياغة فائدتين: 1) الحفاظ على الأداء الأمثل لـ MNER وإلغاء الحاجة إلى استخدام طرق اكتشاف الأشياء لاستخراج السمات الإقليمية مسبقًا، مما يعالج بشكل طبيعي أكبر قيودين للمethods GMNER الحالية. 2) إدخال التعبير عن توسيع الكيان ووحدة الاستدلال البصري (VE) يوحّد التثبيت البصري (VG) والتثبيت الكياني (EG). هذا يمكّن RiVEG من الوراثة بسهولة قدرات الاستدلال البصري والتثبيت البصري لأي نموذج تدريب متعدد الوسائط حالي أو مستقبلي.أثبتت التجارب الشاملة أن RiVEG يتفوق على أفضل الأساليب الحالية في مجموعة البيانات GMNER الموجودة ويحقق تقدمًا مطلقًا بنسبة 10.65٪، 6.21٪ و8.83٪ في جميع الثلاث مهام الفرعية.