HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيلات الوثائق مع عدم اليقين المرتبط بها

Santosh Kesiraju; Oldřich Plchot; Lukáš Burget; Suryakanth V Gangashetty
تعلم تمثيلات الوثائق مع عدم اليقين المرتبط بها
الملخص

معظم تقنيات نمذجة النص تنتج فقط تقديرات نقطة لمتجهات الوثائق ولا تستطيع التقاط عدم اليقين في هذه التقديرات. تقدم هذه عدم اليقين فكرة عن مدى جودة تمثيل متجهات الوثائق للوثيقة. في هذا البحث، نقدم نموذج الفراغ الجزئي المتعدد البايزي (Bayesian SMM)، وهو نموذج توليدي خطي لوغاريتمي يتعلم تمثيل الوثائق على شكل توزيعات غاوسية، مما يتيح له ترميز عدم اليقين في التباين المشترك. بالإضافة إلى ذلك، في النموذج البايزي المقترح SMM، نعالج مشكلة الشمول غير الممكن الذي يظهر أثناء الاستدلال التغيري في النماذج ذات اللوجيت المختلط. كما نقدم تصنيفًا خطيًا توليديًا غاوسيًا لتحديد الموضوع يستغل عدم اليقين في متجهات الوثائق. أظهرت تقييماتنا الداخلية باستخدام مقاييس الالتباس أن النموذج البايزي SMM المقترح يناسب البيانات بشكل أفضل مقارنة بنموذج الوثيقة العصبي المتغير الأكثر تقدمًا على مجموعتي بيانات الكلام فاشر (Fisher) والنصوص 20Newsgroups. أظهرت تجاربنا لتحديد الموضوع أن الأنظمة المقترحة مقاومة للانطباع الزائد على بيانات الاختبار غير المعروفة سابقًا. وفقًا لنتائج تحديد الموضوع، فإن النموذج المقترح يتفوق على أفضل النماذج الموضوعية غير المراقبة ويحقق نتائج مكافئة لنماذج التمييز الكاملة الأكثر تقدمًا.

تعلم تمثيلات الوثائق مع عدم اليقين المرتبط بها | أحدث الأوراق البحثية | HyperAI