HyperAIHyperAI

Command Palette

Search for a command to run...

Lbl2Vec: نهج مستند إلى التضمين للبحث غير المشرف عن الوثائق في مواضيع محددة مسبقًا

Tim Schopf Daniel Braun Florian Matthes

الملخص

في هذا البحث، نتناول مهمة استرجاع الوثائق ذات المواضيع المحددة مسبقًا من مجموعة بيانات وثائق غير مصنفة باستخدام نهج غير مشرف. النهج المقترح يتطلب فقط عددًا صغيرًا من الكلمات الرئيسية التي تصف المواضيع المختلفة ولا يعتمد على وجود وثائق مصنفة. في المقابل، نقدم طريقة تتعلم تمثيلات متجهية مشتركة للوثائق والكلمات من مجموعة البيانات غير المصنفة فقط، وذلك بهدف العثور على الوثائق التي تكون قريبة المعنى من المواضيع الموصوفة بالكلمات الرئيسية. الطريقة المقترحة تحتاج إلى معالجة نصية بسيطة للغاية ولكنها فعالة في الوقت نفسه في استرجاع الوثائق ذات الصلة بنسبة عالية. عند استرجاع الوثائق تباعًا حول مواضيع مختلفة محددة مسبقًا من قواعد بيانات متاحة للعموم واستخدامها بشكل شائع، حققنا قيمة متوسطة تحت منحنى خاصية التشغيل المستقبل (ROC) بلغت 0.95 في إحدى القواعد البيانات و0.92 في أخرى. بالإضافة إلى ذلك، يمكن استخدام طرقتنا لتصنيف الوثائق متعددة الفئات دون الحاجة إلى تعيين تصنيفات لمجموعة البيانات مسبقًا. بالمقارنة مع أساس التصنيف غير المشرف، رفعنا درجات F1 من 76.6 إلى 82.7 ومن 61.0 إلى 75.1 في القواعد البيانات المعنية على التوالي. لتسهيل إعادة إنتاج نهجنا، جعلنا الكود الذي تم تطويره لـ Lbl2Vec متاحًا للعموم كأداة جاهزة للمستخدمين بموجب رخصة BSD ثلاثية البنود (3-Clause BSD).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Lbl2Vec: نهج مستند إلى التضمين للبحث غير المشرف عن الوثائق في مواضيع محددة مسبقًا | مستندات | HyperAI