HyperAIHyperAI
منذ 16 أيام

التدريب المسبق على المستندات حسب التسمية للتصنيف النصي متعدد التسميات

Han Liu, Caixia Yuan, Xiaojie Wang
التدريب المسبق على المستندات حسب التسمية للتصنيف النصي متعدد التسميات
الملخص

يُعد التحدي الرئيسي في التصنيف النصي متعدد التصنيفات (MLTC) هو استغلال التمايزات الممكنة بين التصنيفات والعلاقات بينها بشكل فعّال. في هذه الورقة البحثية، نتناول هذا التحدي من خلال تطوير طريقة التدريب المسبق حسب التصنيف (LW-PT) لاستخلاص تمثيل للوثيقة يحتوي على معلومات واعية بالتصنيفات. الفكرة الأساسية تتمثل في أن وثيقة متعددة التصنيفات يمكن تمثيلها كمزيج من تمثيلات متعددة لكل تصنيف على حدة، وأن التصنيفات المرتبطة دائمًا ما تظهر معًا في نفس الوثيقة أو وثائق مشابهة. تقوم طريقة LW-PT بتنفيذ هذه الفكرة من خلال إنشاء مهام تصنيف وثائق حسب التصنيف، وتدريب مشغلات تمثيل وثائق حسب التصنيف. وفي النهاية، يتم ضبط النموذج المُدرَّب مسبقًا حسب التصنيف بشكل دقيق (fine-tuning) باستخدام المهمة التطبيقية للتصنيف النصي متعدد التصنيفات. وقد أثبتت النتائج التجريبية الواسعة أن الطريقة المقترحة تتفوق بشكل كبير على النماذج السابقة الأكثر تقدمًا، وأنها قادرة على اكتشاف علاقات تصنيف معقولة. وتم إصدار الكود المصدري لتمكين الباحثين الآخرين من الاستفادة منه.

التدريب المسبق على المستندات حسب التسمية للتصنيف النصي متعدد التسميات | أحدث الأوراق البحثية | HyperAI