HyperAIHyperAI
منذ 2 أشهر

استرجاع، توسيع وترميز متعدد المرشحين: سريع ودقيق تصنيف الكيانات فوق الدقيقة

Jiang, Chengyue ; Hui, Wenyang ; Jiang, Yong ; Wang, Xiaobin ; Xie, Pengjun ; Tu, Kewei
استرجاع، توسيع وترميز متعدد المرشحين: سريع ودقيق
تصنيف الكيانات فوق الدقيقة
الملخص

التصنيف الدقيق للغاية للعناصر (UFET) يقوم بتوقع أنواع حرة للغاية (مثل، رئيس، سياسي) لذكر معين للعنصر (مثل، جو بايدن) في سياق معين. الطرق الأكثر تقدمًا (SOTA) تعتمد على الهندسة القائمة على المُشفِّر المتقاطع (CE). يربط CE الذكر (وسياقه) بكل نوع ويقوم بإدخال الأزواج إلى نموذج لغوي مُدرب مسبقًا (PLM) لتقييم مدى صلتهما. هذا يتيح التفاعل العميق بين الذكر وأنواع العناصر لتحقيق أداء أفضل، ولكنه يتطلب إجراء N (حجم مجموعة الأنواع) عمليات تمرير للأمام لتوقع أنواع ذكر واحد. لذلك، يكون CE بطيئًا جدًا في الاستدلال عندما تكون مجموعة الأنواع كبيرة (مثل، N = 10k لـ UFET). بهدف حل هذه المشكلة، نقترح تنفيذ التصنيف الدقيق للعناصر بطريقة استدعاء-توسيع-تصفية. مراحل الاستدعاء والتوسيع تقوم بترشيح مجموعة الأنواع الكبيرة وإنشاء K (عادةً ما يكون K أقل من 256) من أكثر المرشحين صلة بالنوع لكل ذكر. في مرحلة التصفية، نستخدم نموذجًا جديدًا يُسمى MCCE لإنشاء وتقدير هذه المرشحين K في عملية تمرير واحدة فقط للحصول على التوقع النهائي لأنواع العناصر. قمنا بدراسة مختلف متغيرات MCCE وأظهرت التجارب الواسعة أن MCCE تحت مبدأنا يصل إلى أداء SOTA في التصنيف الدقيق للغاية للعناصر وهو أسرع بمئات المرات من المُشفِّر المتقاطع. كما اكتشفنا أن MCCE فعال جدًا في التصنيف الدقيق (130 نوعًا) والتصنيف الخشن (9 أنواع). شفرتنا المصدر متاحة على الرابط \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}.

استرجاع، توسيع وترميز متعدد المرشحين: سريع ودقيق تصنيف الكيانات فوق الدقيقة | أحدث الأوراق البحثية | HyperAI