HyperAIHyperAI

Command Palette

Search for a command to run...

طرق التوازن لتصنيف النصوص متعدد التصنيفات مع توزيع فئات طويل الذيل

Yi Huang Buse Giledereli Abdullatif Köksal Arzucan Özgür Elif Ozkirimli

الملخص

التقسيم النصي متعدد التصنيفات يُعد مهمة صعبة نظرًا لضرورة التقاط الاعتماد بين التصنيفات. وتزداد صعوبتها عندما يكون توزيع الفئات مائلًا بشكل طولي (Long-tailed). وتعتبر إعادة العينة (Resampling) وتعديل الأوزان (Re-weighting) من الأساليب الشائعة لمعالجة مشكلة عدم التوازن بين الفئات، ولكنها لا تكون فعّالة عندما توجد أيضًا اعتماد بين التصنيفات إلى جانب عدم التوازن، لأنها تؤدي إلى تكاثر عينات الفئات الشائعة. هنا، نقدم تطبيق دوال خسارة متوازنة (Balancing Loss Functions) في مجال التقسيم النصي متعدد التصنيفات. قمنا بتجريب هذه الطريقة على مجموعة بيانات عامة تحتوي على 90 تصنيفًا (Reuters-21578)، وعلى مجموعة بيانات متخصصة من منشورات PubMed تحتوي على 18211 تصنيفًا. ووجدنا أن دالة الخسارة المتوازنة من حيث التوزيع، التي تعالج بشكل تلقائي كل من مشكلة عدم التوازن بين الفئات ومشكلة الاعتماد بين التصنيفات، تتفوق على الدوال الشائعة الأخرى لخسارة التدريب. وقد أُثبتت فعالية أساليب التوازن في التوزيع في مجال التعرف على الصور، ونحن هنا نُظهر فعاليتها في مجال معالجة اللغة الطبيعية. يُمكن الوصول إلى الكود المصدري عبر الرابط التالي: https://github.com/Roche/BalancedLossNLP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp