HyperAIHyperAI
منذ 11 أيام

طرق التوازن لتصنيف النصوص متعدد التصنيفات مع توزيع فئات طويل الذيل

Yi Huang, Buse Giledereli, Abdullatif Köksal, Arzucan Özgür, Elif Ozkirimli
طرق التوازن لتصنيف النصوص متعدد التصنيفات مع توزيع فئات طويل الذيل
الملخص

التقسيم النصي متعدد التصنيفات يُعد مهمة صعبة نظرًا لضرورة التقاط الاعتماد بين التصنيفات. وتزداد صعوبتها عندما يكون توزيع الفئات مائلًا بشكل طولي (Long-tailed). وتعتبر إعادة العينة (Resampling) وتعديل الأوزان (Re-weighting) من الأساليب الشائعة لمعالجة مشكلة عدم التوازن بين الفئات، ولكنها لا تكون فعّالة عندما توجد أيضًا اعتماد بين التصنيفات إلى جانب عدم التوازن، لأنها تؤدي إلى تكاثر عينات الفئات الشائعة. هنا، نقدم تطبيق دوال خسارة متوازنة (Balancing Loss Functions) في مجال التقسيم النصي متعدد التصنيفات. قمنا بتجريب هذه الطريقة على مجموعة بيانات عامة تحتوي على 90 تصنيفًا (Reuters-21578)، وعلى مجموعة بيانات متخصصة من منشورات PubMed تحتوي على 18211 تصنيفًا. ووجدنا أن دالة الخسارة المتوازنة من حيث التوزيع، التي تعالج بشكل تلقائي كل من مشكلة عدم التوازن بين الفئات ومشكلة الاعتماد بين التصنيفات، تتفوق على الدوال الشائعة الأخرى لخسارة التدريب. وقد أُثبتت فعالية أساليب التوازن في التوزيع في مجال التعرف على الصور، ونحن هنا نُظهر فعاليتها في مجال معالجة اللغة الطبيعية. يُمكن الوصول إلى الكود المصدري عبر الرابط التالي: https://github.com/Roche/BalancedLossNLP.

طرق التوازن لتصنيف النصوص متعدد التصنيفات مع توزيع فئات طويل الذيل | أحدث الأوراق البحثية | HyperAI