Command Palette
Search for a command to run...
نمذجة المواضيع في فضاءات التضمين
نمذجة المواضيع في فضاءات التضمين
Changyou Chen Tong Zhang Kevin Murphy
الملخص
النمذجة الموضوعية تحلل الوثائق لاكتشاف أنماط ذات معنى للكلمات. ومع ذلك، فإن النماذج الموضوعية الحالية تفشل في تعلم مواضيع قابلة للتفسير عند العمل مع مصطلحات كبيرة وذات ذيل ثقيل (Vocabularies). بهدف حل هذه المشكلة، طورنا نموذج الموضوع المدمج (Embedded Topic Model - ETM)، وهو نموذج جينري لوثائق يجمع بين النماذج الموضوعية التقليدية والتمثيلات اللفظية (Word Embeddings). بشكل خاص، يقوم هذا النموذج بتمثيل كل كلمة بتوزيع كتغوري (Categorical Distribution) الذي يكون معلمه الطبيعي هو حاصل الضرب الداخلي بين تمثيل الكلمة وتمثيل الموضوع المخصص لها. لتطبيق نموذج ETM، طورنا خوارزمية استدلال متغير فعالة وممتدة (Amortized Variational Inference Algorithm). يكتشف نموذج ETM مواضيع قابلة للتفسير حتى مع مصطلحات كبيرة تتضمن كلمات نادرة وكلمات وقف (Stop Words). ويتفوق على النماذج الوثائقية الحالية، مثل التوزيع الديريختلي الخفي (Latent Dirichlet Allocation - LDA)، من حيث جودة المواضيع والأداء التنبؤي.