الاستدلال الترمذي التلقائي للنماذج الموضوعية

النماذج الموضوعية هي واحدة من أكثر الطرق شيوعًا لتعلم تمثيلات النص، ولكن التحدي الرئيسي هو أن أي تغيير في نموذج الموضوع يتطلب اشتقاق خوارزمية استدلال جديدة رياضيًا. طريقة واعدة لحل هذه المشكلة هي الترميز التبايني الآلي (AEVB)، ولكن تطبيقها على النماذج الموضوعية كان صعبًا في الممارسة. نقدم هنا، حسب علمنا، أول طريقة استدلال فعالة تعتمد على AEVB للترميز التبايني الآلي لنموذج Dirichlet الخفي (LDA)، والذي نسميه Autoencoded Variational Inference For Topic Model (AVITM). هذا النموذج يواجه المشكلات التي تسببها الأولوية Dirichlet والانهيار المكون. لقد وجدنا أن AVITM يتطابق مع الطرق التقليدية في الدقة مع وقت استدلال أفضل بكثير. بالفعل، بسبب شبكة الاستدلال، وجدنا أنه ليس من الضروري دفع التكلفة الحاسوبية لتشغيل التحسين التبايني على بيانات الاختبار. لأن AVITM هو صندوق أسود، يمكن تطبيقه بسهولة على نماذج موضوعية جديدة. كمثال دراماتيكي لهذا، نقدم نموذج موضوعي جديد يُدعى ProdLDA، الذي يستبدل نموذج الخليط في LDA بنموذج المنتجين الخبراء (Product of Experts). عن طريق تغيير سطر واحد فقط من الكود من LDA، وجدنا أن ProdLDA ينتج مواضيع أكثر قابلية للتفسير، حتى لو تم تدريب LDA عبر عينة Gibbs المجمعة (collapsed Gibbs sampling).