إعادة النظر في مؤشر التوافق التوزيعي: إعادة تنفيذ بython وتجارب جديدة

يقدم هذا البحث PyDCI، وهي نسخة جديدة من طريقة فهرسة التوزيع المطابق (DCI) مكتوبة بلغة البرمجة بايثون. تعتبر DCI طريقة تعلم نقلية لتصنيف النصوص عبر المجالات واللغات، وقد قدمنا سابقًا تنفيذًا لها (وهو ما يُطلق عليه JaDCI) مبنيًا على JaTeCS، وهو إطار عمل برمجي بلغة جافا لتصنيف النصوص. يعد PyDCI إصدارًا مستقلًا من DCI يستخدم مكتبة scikit-learn ومجموعة SciPy. نقوم هنا بتقرير التجارب الجديدة التي أجريناها لاختبار PyDCI، والتي استخدمنا فيها أساليب ذات أداء عالٍ جديدة ظهرت بعد اقتراح DCI لأول مرة كأساس للمقارنة. تظهر هذه التجارب أن PyDCI، بفضل بعض الطرق الدقيقة التي قمنا بتحسينها في DCI، تتفوق على JaDCI وعلى الأساليب ذات الأداء العالي المذكورة أعلاه، وتقدم أفضل النتائج المعروفة حتى الآن على معياري الاختبار الشهيرين اللذين اختبرنا عليهما DCI، وهما MultiDomainSentiment (المعروف أيضًا باسم MDS -- للتكيف عبر المجالات) و Webis-CLS-10 (للتكيف عبر اللغات). يمكن الحصول على PyDCI مع الكود الذي يسمح بإعادة إجراء تجاربنا من الرابط https://github.com/AlexMoreo/pydci .