استخراج الموضوعات الهرمية من خلال الشجرة الكروية المشتركة وتمثيل النص

استخراج مجموعة من المواضيع ذات المعنى والتي تم تنظيمها في هيكل تسلسلي يبدو مغريًا بشكل طبيعي، نظرًا لوجود الارتباطات بين المواضيع بشكل شائع في مجموعات النصوص الضخمة. لمعالجة الهياكل التسلسلية المحتملة للمواضيع، تعمّم النماذج التسلسلية للمواضيع النماذج المستوية للمواضيع من خلال دمج هياكل موضوعية خفية في عملية النمذجة التوليدية. ومع ذلك، نظرًا لطبيعتها البحتة غير المراقبة، فإن الهيكل الموضوعي المُتعلم غالبًا ما ينحرف عن الاحتياجات أو الاهتمامات الخاصة بالمستخدم. ولتوجيه عملية اكتشاف المواضيع التسلسلية بحد أدنى من المراقبة من المستخدم، نقترح مهمة جديدة تُسمى "استخراج المواضيع التسلسلية"، والتي تأخذ شجرة فئات مُوصوفة فقط من خلال أسماء الفئات، وتهدف إلى استخراج مجموعة من المصطلحات التمثيلية لكل فئة من مجموعة نصية، لمساعدة المستخدم على فهم المواضيع التي يهتم بها. قمنا بتطوير طريقة مبتكرة لدمج التمثيل الشجري والتمثيل النصي مع إجراء تحسين منهجي يسمح بتمثيل متزامن لهيكل شجرة الفئات وعملية توليد المجموعة النصية في الفضاء الكروي، مما يعزز استخراج المصطلحات التمثيلية الفعّالة لكل فئة. تُظهر تجاربنا الشاملة أن نموذجنا، المسمى JoSH، يستخرج مجموعة عالية الجودة من المواضيع التسلسلية بكفاءة عالية، ويُفيد مهام التصنيف النصي التسلسلي الضعيف المراقب.