HyperAIHyperAI
منذ 2 أشهر

Lbl2Vec: نهج مستند إلى التضمين للبحث غير المشرف عن الوثائق في مواضيع محددة مسبقًا

Tim Schopf; Daniel Braun; Florian Matthes
Lbl2Vec: نهج مستند إلى التضمين للبحث غير المشرف عن الوثائق في مواضيع محددة مسبقًا
الملخص

في هذا البحث، نتناول مهمة استرجاع الوثائق ذات المواضيع المحددة مسبقًا من مجموعة بيانات وثائق غير مصنفة باستخدام نهج غير مشرف. النهج المقترح يتطلب فقط عددًا صغيرًا من الكلمات الرئيسية التي تصف المواضيع المختلفة ولا يعتمد على وجود وثائق مصنفة. في المقابل، نقدم طريقة تتعلم تمثيلات متجهية مشتركة للوثائق والكلمات من مجموعة البيانات غير المصنفة فقط، وذلك بهدف العثور على الوثائق التي تكون قريبة المعنى من المواضيع الموصوفة بالكلمات الرئيسية. الطريقة المقترحة تحتاج إلى معالجة نصية بسيطة للغاية ولكنها فعالة في الوقت نفسه في استرجاع الوثائق ذات الصلة بنسبة عالية. عند استرجاع الوثائق تباعًا حول مواضيع مختلفة محددة مسبقًا من قواعد بيانات متاحة للعموم واستخدامها بشكل شائع، حققنا قيمة متوسطة تحت منحنى خاصية التشغيل المستقبل (ROC) بلغت 0.95 في إحدى القواعد البيانات و0.92 في أخرى. بالإضافة إلى ذلك، يمكن استخدام طرقتنا لتصنيف الوثائق متعددة الفئات دون الحاجة إلى تعيين تصنيفات لمجموعة البيانات مسبقًا. بالمقارنة مع أساس التصنيف غير المشرف، رفعنا درجات F1 من 76.6 إلى 82.7 ومن 61.0 إلى 75.1 في القواعد البيانات المعنية على التوالي. لتسهيل إعادة إنتاج نهجنا، جعلنا الكود الذي تم تطويره لـ Lbl2Vec متاحًا للعموم كأداة جاهزة للمستخدمين بموجب رخصة BSD ثلاثية البنود (3-Clause BSD).

Lbl2Vec: نهج مستند إلى التضمين للبحث غير المشرف عن الوثائق في مواضيع محددة مسبقًا | أحدث الأوراق البحثية | HyperAI