النمذجة الموضوعية العصبية مع التدريب المضاد ثنائي الاتجاه

شهدت السنوات الأخيرة ازديادًا كبيرًا في الاهتمام باستخدام نماذج المواضيع العصبية لاستخراج المواضيع تلقائيًا من النصوص، نظرًا لتجنبها التفاضلات الرياضية المعقدة المطلوبة لاستنتاج النموذج كما هو الحال في النماذج التقليدية مثل تحليل لاتنت ديريشليه الخفي (LDA). ومع ذلك، فإن هذه النماذج غالبًا ما تفترض توزيعًا أوليًا غير مناسب (مثل التوزيع الغاوسي أو اللوغاريتمي الطبيعي) في الفضاء المواضيعي الخفي، أو لا تتمكن من استنتاج توزيع المواضيع لمستند معين. وللتغلب على هذه القيود، نقترح نموذجًا موضوعيًا عصبيًا يُسمى نموذج المواضيع المعاكسة ثنائي الاتجاه (Bidirectional Adversarial Topic - BAT)، وهو أول محاولة لتطبيق التدريب المعاكس ثنائي الاتجاه في مجال النمذجة الموضوعية العصبية. يُنشئ النموذج المقترح تقابلًا ثنائي الاتجاه بين توزيع المستند-الموضوع وتوزيع المستند-الكلمة. ويستخدم مولدًا لالتقاط الأنماط الدلالية من النصوص، ومحولًا (Encoder) لاستنتاج المواضيع. علاوةً على ذلك، ولإدراج معلومات الترابط بين الكلمات، تم توسيع النموذج ليصبح نموذج BAT الغاوسي (Gaussian-BAT) بناءً على النموذج BAT. ولتأكيد فعالية نموذج BAT وGaussian-BAT، استخدمنا ثلاث مجموعات معيارية (corpora) في تجاربنا. وأظهرت النتائج التجريبية أن نموذج BAT وGaussian-BAT يحققان موضوعات أكثر انسجامًا، متفوّقين على عدة نماذج مقارنة قوية. علاوةً على ذلك، عند إجراء تجميع النصوص بناءً على المواضيع المستخرجة، تفوق نماذجنا على جميع النماذج المقارنة، مع ملاحظة تحسينات أكثر وضوحًا في نموذج Gaussian-BAT، حيث سُجل زيادة تقارب 6% في الدقة.